論文の概要: Training Dynamics of In-Context Learning in Linear Attention
- arxiv url: http://arxiv.org/abs/2501.16265v1
- Date: Mon, 27 Jan 2025 18:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:55:14.872509
- Title: Training Dynamics of In-Context Learning in Linear Attention
- Title(参考訳): リニアアテンションにおけるインテクスト学習のトレーニングダイナミクス
- Authors: Yedi Zhang, Aaditya K. Singh, Peter E. Latham, Andrew Saxe,
- Abstract要約: In-context linear regression を訓練したマルチヘッド線形自己アテンションの勾配勾配ダイナミクスについて検討した。
我々は、線形注意の降下訓練中に、文脈内学習能力がどのように進化するかを特徴付ける。
- 参考スコア(独自算出の注目度): 6.663503238373593
- License:
- Abstract: While attention-based models have demonstrated the remarkable ability of in-context learning, the theoretical understanding of how these models acquired this ability through gradient descent training is still preliminary. Towards answering this question, we study the gradient descent dynamics of multi-head linear self-attention trained for in-context linear regression. We examine two parametrizations of linear self-attention: one with the key and query weights merged as a single matrix (common in theoretical studies), and one with separate key and query matrices (closer to practical settings). For the merged parametrization, we show the training dynamics has two fixed points and the loss trajectory exhibits a single, abrupt drop. We derive an analytical time-course solution for a certain class of datasets and initialization. For the separate parametrization, we show the training dynamics has exponentially many fixed points and the loss exhibits saddle-to-saddle dynamics, which we reduce to scalar ordinary differential equations. During training, the model implements principal component regression in context with the number of principal components increasing over training time. Overall, we characterize how in-context learning abilities evolve during gradient descent training of linear attention, revealing dynamics of abrupt acquisition versus progressive improvements in models with different parametrizations.
- Abstract(参考訳): 注意に基づくモデルは、文脈内学習の顕著な能力を示しているが、これらのモデルが勾配降下訓練を通じてこの能力をどうやって獲得したかについての理論的な理解は、まだ予備的である。
本問題に対処するために, テキスト内線形回帰を訓練したマルチヘッド線形自己アテンションの勾配勾配ダイナミクスについて検討する。
本稿では,鍵重みとクエリ重みの2つのパラメータを1つの行列(理論研究でよく見られる)と,鍵重みとクエリ重みの2つの行列(実際の設定に近い)について検討する。
統合パラメトリゼーションでは、トレーニングダイナミクスは2つの固定点を持ち、損失軌跡は1つの突然の降下を示す。
特定のデータセットと初期化のクラスについて解析的な時間軸解を導出する。
個別のパラメトリゼーションでは、トレーニングダイナミクスは指数関数的に多くの固定点を持ち、損失はサドル・アンド・サドル・ダイナミクスを示し、スカラー常微分方程式に還元する。
トレーニング中、モデルはトレーニング時間とともに主コンポーネントの数が増加するという文脈で、主コンポーネントの回帰を実装している。
全体として、線形注意の勾配降下訓練中に、文脈内学習能力がどのように進化するかを特徴付け、異なるパラメトリゼーションを持つモデルの急激な獲得と漸進的な改善のダイナミクスを明らかにする。
関連論文リスト
- Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Understanding Multi-phase Optimization Dynamics and Rich Nonlinear
Behaviors of ReLU Networks [8.180184504355571]
線形可分データに基づく勾配流による2層ReLUネットワークの学習過程の理論的評価を行う。
学習過程全体から4つの段階が明らかになり,学習の簡略化と複雑化の傾向が示された。
特定の非線形挙動は、初期、サドルプラトー力学、凝縮エスケープ、複雑化に伴う活性化パターンの変化など、理論的に正確に識別することもできる。
論文 参考訳(メタデータ) (2023-05-21T14:08:34Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Imitating Deep Learning Dynamics via Locally Elastic Stochastic
Differential Equations [20.066631203802302]
本研究では, 深層学習における特徴の進化を, それぞれが学習サンプルに対応する微分方程式(SDE)を用いて研究する。
我々の結果は、ニューラルネットワークのトレーニング力学における局所弾性の決定的な役割に光を当てた。
論文 参考訳(メタデータ) (2021-10-11T17:17:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。