論文の概要: Large-Step Training Dynamics of a Two-Factor Linear Transformer Model
- arxiv url: http://arxiv.org/abs/2605.21292v1
- Date: Wed, 20 May 2026 15:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.748657
- Title: Large-Step Training Dynamics of a Two-Factor Linear Transformer Model
- Title(参考訳): 2要素線形変圧器モデルの大規模訓練ダイナミクス
- Authors: Krishnakumar Balasubramanian,
- Abstract要約: 本研究では, 線形変圧器の線形変圧器学習問題について検討する。
正規化後、ダイナミクスは2要素積写像に還元される。
その結果,学習者の学習意欲が変化し,学習者の学習意欲が変化することが示唆された。
- 参考スコア(独自算出の注目度): 5.256913964154542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-flow analyses show that simplified linear transformers can learn the in-context linear-regression algorithm, but they do not explain the finite-step behavior of gradient descent at large learning rates. Motivated by empirical work on high-learning-rate transformer instabilities and by the cubic-map phase diagram for quadratic regression, we study an exactly reducible one-prompt linear-transformer training problem. After normalization, the dynamics reduce to a two-factor product map with an effective step-size parameter \(μ\). On the balanced slice, this map recovers the known scalar cubic transition from monotone convergence to catapult convergence, periodic and chaotic bounded nonconvergence, and divergence. We then analyze the full two-dimensional system and show that, for \(0<μ<2\), it has an explicit invariant Chebyshev ellipse separating forward-invariant regions; this ellipse carries off-balanced chaotic dynamics but is transversely repelling, while balanced scalar attractors can be transversely attracting. These results show that large constant learning rates can change the training attractor of the learned transformer rather than merely accelerating convergence: beyond sharp stability thresholds, finite-step training may settle into cycles, bounded chaos, or divergence instead of a single in-context linear-regression solution. We also discuss the consequences for mini-batch gradient descent based training methods.
- Abstract(参考訳): グラディエント・フロー解析により、単純化された線形変換器は、文脈内線形回帰アルゴリズムを学習できるが、大きな学習速度での勾配勾配の有限ステップの挙動は説明できない。
高速変圧器の不安定性に関する実証研究と2次回帰のための3次写像位相図により動機付け, 正確に再現可能な線形変圧器訓練問題について検討した。
正規化後、ダイナミクスは実効的なステップサイズパラメータ \(μ\) を持つ2要素積写像に還元される。
バランスの取れたスライスでは、この写像はモノトン収束からカタパルト収束、周期的およびカオス的有界非収束、および発散から既知のスカラー立方体遷移を復元する。
次に、全2次元系を解析し、 \(0<μ<2\) に対して、前-不変領域を分離する明示的不変なチェビシェフ楕円体を持つことを示す。
これらの結果から, 学習者の学習速度は, 収束を加速させるだけでなく, 学習者の学習誘引を変化させる可能性が示唆された: 急激な安定しきい値を超えると, 有限ステップトレーニングは, 単一のコンテキスト内線形回帰解ではなく, サイクル, 境界カオス, 分岐に収まる可能性がある。
また,ミニバッチ勾配勾配に基づく学習手法の有効性についても論じる。
関連論文リスト
- Representational Curvature Modulates Behavioral Uncertainty in Large Language Models [7.361948338002342]
時間的ストレート化は、次の予測対象がどのように表現を形作るかを説明する。
大規模言語モデル(LLMs)では、時間的ストレート化は、次のトーケン予測対象がどのように表現を形作るかを説明する。
本稿では,最近の文脈から次へのエントロピーに対する表現軌跡の曲がり度を測る幾何学的尺度である文脈曲率を関連付けることで,そのようなリンクを提供する。
論文 参考訳(メタデータ) (2026-04-27T03:00:47Z) - On Disentangled Training for Nonlinear Transform in Learned Image Compression [59.66885464492666]
学習画像圧縮(lic)は,従来のコーデックに比べて高いレート歪み(R-D)性能を示した。
既存のlic法は、非線形変換の学習において、エネルギーのコンパクト化によって生じる緩やかな収束を見落としている。
非線形変換の訓練において, エネルギーの縮退を両立させる線形補助変換(AuxT)を提案する。
論文 参考訳(メタデータ) (2025-01-23T15:32:06Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers [22.25628914395565]
深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。
我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。
実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
論文 参考訳(メタデータ) (2024-03-05T01:30:34Z) - On regularization of gradient descent, layer imbalance and flat minima [9.08659783613403]
我々は、解の平坦性を定義する新しい計量-不均衡-を用いて、ディープ線形ネットワークのトレーニングダイナミクスを解析する。
重み付け減衰や雑音データ増大などの異なる正規化手法も同様に振る舞うことを実証する。
論文 参考訳(メタデータ) (2020-07-18T00:09:14Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。