論文の概要: Self-Attention as a Covariance Readout: A Unified View of In-Context Learning and Repetition
- arxiv url: http://arxiv.org/abs/2605.10466v1
- Date: Mon, 11 May 2026 12:33:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.563376
- Title: Self-Attention as a Covariance Readout: A Unified View of In-Context Learning and Repetition
- Title(参考訳): 共変読解としての自己認識--文脈内学習と反復の統一的視点
- Authors: Haoren Xu, Guanhua Fang,
- Abstract要約: 大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と反復生成の2つの振る舞いを示す。
どちらのモデルも、コンテキストを人口統計と捨てられたトークンレベルの詳細に要約したかのように振る舞う。
この要約と「忘れる」は、注意機構自体から導き出すことができ、肯定的に答えられるかどうかを問う。
- 参考スコア(独自算出の注目度): 8.250374560598495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) exhibit two striking and ostensibly unrelated behaviours: in-context learning (ICL) and repetitive generation. In both, the model behaves as though it had summarised the context into a population-level statistic and discarded token-level detail. We ask whether this ``summarisation and forgetting'' can be derived from the attention mechanism itself, and answer in the affirmative. Under stationary, ergodic and elliptical inputs, the softmax attention output converges almost surely to $Θ_VΣΘ_K^{\top}Θ_Q x_t$, where $Σ$ is the input covariance; the long-context limit is therefore a linear readout of the input's second-order statistics. Two consequences follow. (i) For in-context linear regression, a single softmax head can implement one step of population gradient descent. Stacking such heads with residual connections iterates this update and implements multiple gradient descent steps. (ii) Propagated across an $L$-layer transformer, this readout drives the terminal hidden state at the parametric $1/t$ rate to a deterministic function of the current token alone, so that autoregressive generation collapses asymptotically to a first-order Markov chain whose attracting orbits furnish a structural account of repetition and mode collapse. The two phenomena thus emerge as facets of a single covariance-readout principle.
- Abstract(参考訳): 大規模言語モデル (LLM) は、インコンテキスト学習 (ICL) と反復生成 (repetitive generation) の2つの顕著かつ目に見える無関係な振る舞いを示す。
どちらのモデルも、コンテキストを人口統計と捨てられたトークンレベルの詳細に要約したかのように振る舞う。
この「要約と忘れ」は、注意機構自体から導き出すことができ、肯定的に答えられるかどうかを問う。
定常的、エルゴディック的、楕円的入力の下では、ソフトマックスのアテンション出力は、ほぼ確実に$\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\ \\\\\\\\\\\\\\\\\\\\\\\\\\\\ の入力の入力の2の2の2の
2つの結果が続く。
i) 文脈内線形回帰では, 1つのソフトマックスヘッドが集団勾配勾配の1ステップを実装できる。
このようなヘッドを残りの接続で積み上げると、この更新が反復され、複数の勾配降下ステップが実装される。
(II)$L$層変圧器で表されるこの読み出しは、パラメトリックな1/t$レートで端末隠蔽状態を現在のトークンの確定関数に駆動するので、自己回帰生成が漸近的に1階マルコフ連鎖に崩壊し、軌道を引き付けることで繰り返しとモード崩壊という構造的説明を与える。
この2つの現象は、単一の共分散-可算原理の面として現れる。
関連論文リスト
- A Theory of Online Learning with Autoregressive Chain-of-Thought Reasoning [14.292982828097465]
[Joshiら,2025)は,このプロセスから生じる入力出力マップの学習可能性を研究するためのPACモデルを提案した。
我々は,未知の次点発生器による最終的な出力の誤り境界に着目し,このフレームワークのオンラインアナログを開発する。
我々のゴールは、最適なミスバウンドが生成地平線にどのように依存するかを理解することである。
論文 参考訳(メタデータ) (2026-05-07T18:21:05Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。
本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文 参考訳(メタデータ) (2025-10-31T07:54:37Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Retire: Robust Expectile Regression in High Dimensions [3.9391041278203978]
ペナル化量子化法と期待回帰法は、高次元データの異方性検出に有用な手段を提供する。
我々は,頑健な期待回帰(退職)を提案し,研究する。
提案手法は半平滑なニュートン座標降下アルゴリズムにより効率よく解けることを示す。
論文 参考訳(メタデータ) (2022-12-11T18:03:12Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。