論文の概要: On the Capacity of Self-Attention
- arxiv url: http://arxiv.org/abs/2509.22840v1
- Date: Fri, 26 Sep 2025 18:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.90487
- Title: On the Capacity of Self-Attention
- Title(参考訳): 自己注意能力について
- Authors: Micah Adler,
- Abstract要約: 本稿では,自己保持能力に関するキャパシティに基づくスケーリング法を提案する。
D_K$は、広いグラフのクラスにおいて、$m'$関係を回復するのに必要かつ十分であることを示す。
また、固定されたD_K$を多数の小さな頭部に割り当てることで干渉を緩和することを示した。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While self-attention is known to learn relations among tokens, we lack a formal understanding of its capacity: how many distinct relations can a single layer reliably recover for a given budget? To formalize this, we introduce Relational Graph Recognition (RGR), where the key-query channel represents a graph on $m$ items with $m'$ directed edges, and, given a context of items, must recover the neighbors of each item. We measure resources by the total key dimension $D_K = h\,d_k$. Within this framework, we analytically derive a capacity scaling law and validate it empirically. We show that $D_K = \Theta(m' \log m' / d_{\text{model}})$ is both necessary (information-theoretic lower bound) and sufficient (explicit construction) in a broad class of graphs to recover $m'$ relations. This scaling law directly leads to a new, capacity-based rationale for multi-head attention that applies even when each item only attends to a single target. When embeddings are uncompressed ($m = d_{\text{model}}$) and the graph is a permutation, a single head suffices. However, compression ($m > d_{\text{model}}$) forces relations into overlapping subspaces, creating interference that a single large head cannot disentangle. Our analysis shows that allocating a fixed $D_K$ across many small heads mitigates this interference, increasing the number of recoverable relations. Controlled single-layer experiments mirror the theory, revealing a sharp performance threshold that matches the predicted capacity scaling and confirms the benefit of distributing $D_K$ across multiple heads. Altogether, these results provide a concrete scaling law for self-attention capacity and a principled design rule for allocating key-query budget across heads.
- Abstract(参考訳): 自己注意はトークン間の関係を学習することが知られているが、私たちはその能力について正式な理解を欠いている。
これを形式化するために、RGR(Relational Graph Recognition)を導入し、キークエリチャネルは、$m'$の有向エッジを持つ$m$アイテム上のグラフを表し、アイテムのコンテキストが与えられた場合、各アイテムの隣人を回復しなければならない。
合計鍵次元$D_K = h\,d_k$で資源を測定する。
この枠組みの中で、我々はキャパシティスケーリング法則を解析的に導き、それを実証的に検証する。
D_K = \Theta(m' \log m' / d_{\text{model}})$は、幅広いグラフのクラスにおいて、$m'$関係を回復するのに必要である(情報理論の下限)。
このスケーリング法則は、各項目が単一のターゲットにのみ参加しても適用可能な、多面的注意のための、新しいキャパシティベースの理論的根拠を導き出す。
埋め込みが非圧縮(m = d_{\text{model}}$)で、グラフが置換である場合、単一のヘッドが十分である。
しかし、圧縮(m > d_{\text{model}}$) は関係を重なり合う部分空間に強制し、1つの大きなヘッドが絡み合わないという干渉を生み出す。
我々の分析は、固定されたD_K$を多くの小さな頭部に割り当てることで、この干渉を緩和し、回復可能な関係の数が増加することを示している。
制御された単層実験はこの理論を反映し、予測されたキャパシティスケーリングにマッチするシャープな性能閾値を明らかにし、複数のヘッドにD_K$を分配する利点を確認する。
これらの結果は、自己保持能力に関する具体的なスケーリング法則と、キークエリの予算を頭上で割り当てるための原則化された設計規則を提供する。
関連論文リスト
- Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - Linear Causal Bandits: Unknown Graph and Soft Interventions [18.412177974475526]
因果バンディットのアルゴリズムを 設計するのは 2つの前提に依る
その一般的な形式、すなわち未知グラフと未知の介入モデルにおける問題は、まだ未解決のままである。
本稿は、この問題に対処し、N$ノードを持つグラフにおいて、最大$d$と最大$L$の因果経路長を持つグラフにおいて、$T$相互作用が後悔の上限スケールをラウンド化することを示す。
論文 参考訳(メタデータ) (2024-11-04T18:50:39Z) - Identifying General Mechanism Shifts in Linear Causal Representations [58.6238439611389]
我々は,未知の潜在因子の線形混合を観測する線形因果表現学習環境について考察する。
近年の研究では、潜伏要因の復元や、それに基づく構造因果モデルの構築が可能であることが示されている。
非常に穏やかな標準仮定の下では、シフトしたノードの集合を識別することが可能である。
論文 参考訳(メタデータ) (2024-10-31T15:56:50Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Causal Bandits for Linear Structural Equation Models [58.2875460517691]
本稿では,因果図形モデルにおける最適な介入順序を設計する問題について検討する。
グラフの構造は知られており、ノードは$N$である。
頻繁性(UCBベース)とベイズ的設定に2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-26T16:21:31Z) - Collaborative likelihood-ratio estimation over graphs [55.98760097296213]
グラフに基づく相対的制約のない最小二乗重要度フィッティング(GRULSIF)
我々はこの考え方を、グラフベースの相対的非制約最小二乗重要度フィッティング(GRULSIF)と呼ばれる具体的な非パラメトリック手法で開発する。
我々は、ノード当たりの観測回数、グラフのサイズ、およびグラフ構造がタスク間の類似性をどの程度正確にエンコードしているかといった変数が果たす役割を強調する、協調的なアプローチの収束率を導出する。
論文 参考訳(メタデータ) (2022-05-28T15:37:03Z) - Causal Inference Despite Limited Global Confounding via Mixture Models [4.721845865189578]
そのようなモデルの有限$k$-mixtureは、図式的により大きなグラフで表される。
空でないDAGの混合を学習するための最初のアルゴリズムを与える。
論文 参考訳(メタデータ) (2021-12-22T01:04:50Z) - Recurrently Predicting Hypergraphs [30.092688729343678]
問題は、$n$要素の集合に対して$mathcalO(2n)$でスケーリング可能なマルチウェイ関係(ハイパーエッジ)の数から生じる。
そこで本研究では,提案手法の初期推定を反復的に精算することにより,入射行列を予測する再帰型ハイパーグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-26T01:12:41Z) - Collaborative Causal Discovery with Atomic Interventions [12.18848217289866]
我々は、複数の独立したエンティティをそれぞれ独自の因果グラフで持つ一般的なシナリオをモデル化する。
目標は、これらの因果グラフを同時に学習することだ。
我々はこの問題を因果補足仮定なしで研究する。
論文 参考訳(メタデータ) (2021-06-06T04:30:29Z) - Intervention Efficient Algorithms for Approximate Learning of Causal
Graphs [22.401163479802094]
我々は、潜時の存在下で観察された変数の集合間の因果関係を学習する問題を研究する。
我々の目標は、介入の最小限の費用で、すべての因果関係や祖先関係の方向性を$G$で回収することです。
我々のアルゴリズムは効率的な介入設計と低コストな分離集合系の設計を組み合わせる。
論文 参考訳(メタデータ) (2020-12-27T17:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。