論文の概要: Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds
- arxiv url: http://arxiv.org/abs/2512.22473v1
- Date: Sat, 27 Dec 2025 05:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.073905
- Title: Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds
- Title(参考訳): 注意のグラディエントダイナミクス--クロスエントロピーがベイズ多様体をどのように刻み込むか
- Authors: Naman Aggarwal, Siddhartha R. Dalal, Vishal Misra,
- Abstract要約: 本研究では,トランスフォーマーアテンションヘッドにおいて,クロスエントロピートレーニングがアテンションスコアとバリューベクターをいかに再帰させるかを示す。
私たちの中核的な成果は、注目スコアに対する強調に基づくルーティング法です。
この結合された特殊化は、2時間規模のEMプロシージャのように振る舞うことを示す。
- 参考スコア(独自算出の注目度): 0.4779196219827507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers empirically perform precise probabilistic reasoning in carefully constructed ``Bayesian wind tunnels'' and in large-scale language models, yet the mechanisms by which gradient-based learning creates the required internal geometry remain opaque. We provide a complete first-order analysis of how cross-entropy training reshapes attention scores and value vectors in a transformer attention head. Our core result is an \emph{advantage-based routing law} for attention scores, \[ \frac{\partial L}{\partial s_{ij}} = α_{ij}\bigl(b_{ij}-\mathbb{E}_{α_i}[b]\bigr), \qquad b_{ij} := u_i^\top v_j, \] coupled with a \emph{responsibility-weighted update} for values, \[ Δv_j = -η\sum_i α_{ij} u_i, \] where $u_i$ is the upstream gradient at position $i$ and $α_{ij}$ are attention weights. These equations induce a positive feedback loop in which routing and content specialize together: queries route more strongly to values that are above-average for their error signal, and those values are pulled toward the queries that use them. We show that this coupled specialization behaves like a two-timescale EM procedure: attention weights implement an E-step (soft responsibilities), while values implement an M-step (responsibility-weighted prototype updates), with queries and keys adjusting the hypothesis frame. Through controlled simulations, including a sticky Markov-chain task where we compare a closed-form EM-style update to standard SGD, we demonstrate that the same gradient dynamics that minimize cross-entropy also sculpt the low-dimensional manifolds identified in our companion work as implementing Bayesian inference. This yields a unified picture in which optimization (gradient flow) gives rise to geometry (Bayesian manifolds), which in turn supports function (in-context probabilistic reasoning).
- Abstract(参考訳): 変換器は'Bayesian Wind Tunnels'や大規模言語モデルにおいて、慎重に構築された'Bayesian Wind Tunnels'において正確な確率論的推論を経験的に行うが、勾配に基づく学習が要求される内部幾何学を生成するメカニズムはいまだ不透明である。
本研究では, コンバータ型アテンションヘッドにおいて, クロスエントロピートレーニングがアテンションスコアと値ベクトルをどのように再現するかの1次解析を行う。
我々の中心となる結果は、注目スコアに対する \emph{advantage-based routing law} である。 \[ \frac{\partial L}{\partial s_{ij}} = α_{ij}\bigl(b_{ij}-\mathbb{E}_{α_i}[b]\bigr), \qquad b_{ij} := u_i^\top v_j, \] と値に対する \emph{responsibility-weighted update} を結合した \[ Δv_j = -η\sum_i α_{ij} u_i, \] ここで $u_i$ は位置 $i$ と $α_{ij}$ の上流勾配である。
これらの方程式は、ルーティングとコンテンツが共に専門とする正のフィードバックループを誘導する: クエリは、エラー信号の平均値よりも高い値に強くルートされ、それらの値がそれらを使用するクエリへ引っ張られる。
注意重みはEステップ(ソフト責任)を実装し、価値はMステップ(責任重み付けされたプロトタイプ更新)を実装し、クエリとキーは仮説フレームを調整する。
正方形EMスタイルの更新を標準SGDと比較する粘着マルコフ連鎖タスクを含む制御されたシミュレーションを通して、交叉エントロピーを最小化する同じ勾配ダイナミクスがベイズ的推論を実践すると共に、我々の共同研究で同定された低次元多様体を彫刻することを示した。
これは、最適化(漸進フロー)が幾何(ベイジアン多様体)を生じさせる統一的な図形となり、それが関数(コンテキスト内確率的推論)をサポートする。
関連論文リスト
- The Bayesian Geometry of Transformer Attention [0.4779196219827507]
我々は,真の後部が閉じた形で認識され,記憶化が不可能な制御環境を構築する。
小さな変圧器はmbox$10-3$--10-4$ビットの精度でベイズの後部を再現するが、容量整合幾何は桁違いに失敗する。
論文 参考訳(メタデータ) (2025-12-27T05:28:58Z) - Two-Scale Latent Dynamics for Recurrent-Depth Transformers [18.852161704625562]
トークンを出力する前に遅延計算を繰り返すことにより、電流深度変換器の幾何学がテスト時間計算をスケールする。
チェックポイント全体では、ループステップがより小さくなり、互いに直交する傾向が増している。
これらのダイナミクスは、ステップサイズにおけるモデルの2階差に基づく早期退避機構を動機付けている。
論文 参考訳(メタデータ) (2025-09-27T14:01:40Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Implicit Bias and Fast Convergence Rates for Self-attention [26.766649949420746]
本稿では,変圧器の定義機構である自己注意の基本的な最適化原理について考察する。
線形分類におけるデコーダを用いた自己アテンション層における勾配ベースの暗黙バイアスを解析する。
論文 参考訳(メタデータ) (2024-02-08T15:15:09Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Graph Signal Sampling for Inductive One-Bit Matrix Completion: a
Closed-form Solution [112.3443939502313]
グラフ信号解析と処理の利点を享受する統合グラフ信号サンプリングフレームワークを提案する。
キーとなる考え方は、各ユーザのアイテムのレーティングをアイテムイットグラフの頂点上の関数(信号)に変換することである。
オンライン設定では、グラフフーリエ領域における連続ランダムガウス雑音を考慮したベイズ拡張(BGS-IMC)を開発する。
論文 参考訳(メタデータ) (2023-02-08T08:17:43Z) - Gaussian MRF Covariance Modeling for Efficient Black-Box Adversarial
Attacks [86.88061841975482]
我々は,ゼロオーダーのオラクルにのみアクセス可能なブラックボックス設定において,逆例を生成する問題について検討する。
我々はこの設定を用いて、FGSM(Fast Gradient Sign Method)のブラックボックス版と同様に、高速な1ステップの敵攻撃を見つける。
提案手法はクエリを少なくし,現在の技術よりも攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2020-10-08T18:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。