論文の概要: Multi-Head Attention Is a Multi-Player Game
- arxiv url: http://arxiv.org/abs/2602.00861v1
- Date: Sat, 31 Jan 2026 18:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.438788
- Title: Multi-Head Attention Is a Multi-Player Game
- Title(参考訳): マルチプレイヤーゲーム「Multi-Head Attention」
- Authors: Kushal Chakrabarti, Nirmal Balachundar,
- Abstract要約: クロスエントロピートレーニングは、頭の中で暗黙の潜在的なゲームを引き起こす。
勾配降下は、潜在的に非有界な非効率でナッシュ平衡に収束する。
我々はこれを GAME-LoRA として、Barlow Twins decorrelation と対数行列座標圧を組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern transformer attention is internally multi-agent -- heads compete and coordinate -- yet we train it as if it were a monolithic optimizer. We formalize this gap: cross-entropy training induces an implicit potential game among heads, and gradient descent converges to Nash equilibria with potentially unbounded inefficiency due to unpriced externalities (redundancy, correlated errors). Our main result bounds the Price of Anarchy by $Γ(G)$, the off-diagonal mass of a head interaction matrix capturing weight and gradient coupling. Under mild smoothness assumptions, we prove that both \emph{excess hallucination probability} and \emph{excess head redundancy} scale with PoA, unifying two distinct failure modes into a single mechanism. The bound is prescriptive: regularization that reduces $Γ(G)$ provably tightens PoA. We instantiate this as GAME-LoRA, combining Barlow Twins decorrelation with log-determinant coordination pressure. Experiments validate the theory: $Γ(G)$ predicts hallucination ($p{<}0.05$), emergent coalitions exhibit selective coordination, and GAME-LoRA achieves up to 18\% hallucination reduction (8\% average) with no knowledge degradation -- a Pareto improvement inaccessible to methods ignoring the game structure.
- Abstract(参考訳): 現代のトランスフォーマーの注目は、内部のマルチエージェント -- ヘッドの競合とコーディネート -- にありますが、モノリシックなオプティマイザのようにトレーニングします。
クロスエントロピートレーニングは、頭の中で暗黙のポテンシャルゲームを引き起こし、勾配降下は、プライドな外部性(冗長性、相関誤差)によって潜在的に非有界な非効率でナッシュ平衡に収束する。
我々の主な結果は、重みと勾配のカップリングを捉えた頭部相互作用行列の対角質量である$(G)$でアナーキーの価格を束縛する。
軽度な滑らかさの仮定の下では,2つの異なる障害モードを単一のメカニズムに統一し,それぞれがPoAでスケールすることが証明される。
有界性は規範的であり、正則化は$(G)$を減らし、PoAを確実に締め付ける。
我々はこれを GAME-LoRA として、Barlow Twins decorrelation と対数行列座標圧を組み合わせる。
実験は、この理論を検証している:$(G)$は幻覚(p{<}0.05$)を予測し、創発的連立は選択的な調整を示し、GAME-LoRAは知識劣化のない最大18\%の幻覚減少(平均8\%)を達成する。
関連論文リスト
- Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - Convergence of Regret Matching in Potential Games and Constrained Optimization [85.55969013318627]
RM$+$の交互収束は、$O_epsilon (1/epsilon4)$の後に$Epsilon$-KKT点に収束し、それが音で高速な一階数であることを示す。
我々の下界は、ポテンシャルゲームにおける粗相関平衡への収束が、ナッシュ平衡への収束よりも指数関数的に速いことを示している。
論文 参考訳(メタデータ) (2025-10-20T00:45:47Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Global Nash Equilibrium in Non-convex Multi-player Game: Theory and
Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。
また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文 参考訳(メタデータ) (2023-01-19T11:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。