論文の概要: The Developmental Landscape of In-Context Learning
- arxiv url: http://arxiv.org/abs/2402.02364v1
- Date: Sun, 4 Feb 2024 06:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:13:01.371247
- Title: The Developmental Landscape of In-Context Learning
- Title(参考訳): インテクスト学習の展開する景観
- Authors: Jesse Hoogland, George Wang, Matthew Farrugia-Roberts, Liam Carroll,
Susan Wei, Daniel Murfet
- Abstract要約: 本稿では,言語モデルや線形回帰タスクで学習した場合に,コンテクスト内学習が個別発達段階のトランスフォーマーに現れることを示す。
パラメータ空間と関数空間の両方において、人口損失の幾何学を探索することにより、これらの段階を分離するマイルストーンを検出する2つの方法を提案する。
本研究は, これらの手法を用いて, 行動指標と構造指標を用いて, それらの妥当性を検証した。
- 参考スコア(独自算出の注目度): 2.0451307225357427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that in-context learning emerges in transformers in discrete
developmental stages, when they are trained on either language modeling or
linear regression tasks. We introduce two methods for detecting the milestones
that separate these stages, by probing the geometry of the population loss in
both parameter space and function space. We study the stages revealed by these
new methods using a range of behavioral and structural metrics to establish
their validity.
- Abstract(参考訳): 本稿では,言語モデルや線形回帰タスクで学習した場合に,コンテクスト内学習が個別発達段階のトランスフォーマーに現れることを示す。
パラメータ空間と関数空間の両方における人口減少の幾何を探索することにより,これらの段階を分離するマイルストーンを検出する2つの方法を提案する。
本研究では,これらの手法を用いて,行動指標と構造指標を用いて,その妥当性を実証する。
関連論文リスト
- Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Inverting Visual Representations with Detection Transformers [0.8124699127636158]
本研究では,検出変換器内の中間層からの入力画像を再構成するために,逆モデルのトレーニング手法を適用する。
本研究では, テクスチャ形状の堅牢性, 層間相関, 色摂動の保存など, 検出変換器の臨界特性を示す。
論文 参考訳(メタデータ) (2024-12-09T14:43:06Z) - Dynamical stability and chaos in artificial neural network trajectories along training [3.379574469735166]
浅いニューラルネットワークのネットワーク軌跡をこのレンズを通して解析することにより,このプロセスの動的特性について検討する。
我々は,学習率の仕組みによって,規則的かつカオス的な行動のヒントを見いだす。
この研究は、力学系理論、ネットワーク理論、機械学習のアイデアの交叉受精にも貢献している。
論文 参考訳(メタデータ) (2024-04-08T17:33:11Z) - Emergent learning in physical systems as feedback-based aging in a
glassy landscape [0.0]
学習力学は,フィードバック境界力の繰り返し適用に応答してシステムを緩和する老化過程に類似していることが示される。
また、エポック関数としての平均二乗誤差の平方根が、ガラス系の典型的な特徴である非指数形式をとることも観察する。
論文 参考訳(メタデータ) (2023-09-08T15:24:55Z) - Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Going beyond p-convolutions to learn grayscale morphological operators [64.38361575778237]
p-畳み込み層と同じ原理に基づく2つの新しい形態層を提示する。
本研究では, p-畳み込み層と同じ原理に基づく2つの新しい形態層を示す。
論文 参考訳(メタデータ) (2021-02-19T17:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。