論文の概要: Dynamics of Transient Structure in In-Context Linear Regression Transformers
- arxiv url: http://arxiv.org/abs/2501.17745v1
- Date: Wed, 29 Jan 2025 16:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:53:36.365181
- Title: Dynamics of Transient Structure in In-Context Linear Regression Transformers
- Title(参考訳): インコンテキスト線形回帰変換器における過渡構造のダイナミクス
- Authors: Liam Carroll, Jesse Hoogland, Matthew Farrugia-Roberts, Daniel Murfet,
- Abstract要約: 中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
我々は、変圧器における過渡構造現象の一般的な説明を示唆するために、ベイズ内部モデル選択の理論に基づく。
- 参考スコア(独自算出の注目度): 0.5242869847419834
- License:
- Abstract: Modern deep neural networks display striking examples of rich internal computational structure. Uncovering principles governing the development of such structure is a priority for the science of deep learning. In this paper, we explore the transient ridge phenomenon: when transformers are trained on in-context linear regression tasks with intermediate task diversity, they initially behave like ridge regression before specializing to the tasks in their training distribution. This transition from a general solution to a specialized solution is revealed by joint trajectory principal component analysis. Further, we draw on the theory of Bayesian internal model selection to suggest a general explanation for the phenomena of transient structure in transformers, based on an evolving tradeoff between loss and complexity. This explanation is grounded in empirical measurements of model complexity using the local learning coefficient.
- Abstract(参考訳): 現代のディープニューラルネットワークは、豊富な内部計算構造の顕著な例を示している。
このような構造の発展を規定する原則を明らかにすることは、深層学習の科学にとって最優先事項である。
本稿では,中間タスクの多様性を持つコンテキスト内線形回帰タスクにおいてトランスフォーマーが訓練された場合,まず,トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞う過渡尾根現象について考察する。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
さらにベイズ内部モデル選択の理論に基づいて、損失と複雑性の間のトレードオフの進化に基づいて、変圧器における過渡構造現象の一般的な説明を提案する。
この説明は、局所学習係数を用いたモデル複雑性の実験的測定に基礎を置いている。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient [0.49478969093606673]
特異学習理論に基づくモデル複雑性の尺度である局所学習係数 (LLC) の洗練された変種を導入する。
本研究では,トランスフォーマー言語モデルにおける内部構造の開発について検討する。
論文 参考訳(メタデータ) (2024-10-03T20:51:02Z) - A Percolation Model of Emergence: Analyzing Transformers Trained on a Formal Language [15.929767234646631]
データ、サイズ、計算量の増加は、ニューラルネットワークによる特定の能力の急激な学習につながる可能性がある。
エマージェンス(emergence)とは、しばしば「エマージェンス(emergence)」と呼ばれる現象である。
論文 参考訳(メタデータ) (2024-08-22T17:44:22Z) - How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。
このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:33:02Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。