論文の概要: Multi-Head Attention Is a Multi-Player Game
- arxiv url: http://arxiv.org/abs/2602.00861v1
- Date: Sat, 31 Jan 2026 18:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.438788
- Title: Multi-Head Attention Is a Multi-Player Game
- Title(参考訳): マルチプレイヤーゲーム「Multi-Head Attention」
- Authors: Kushal Chakrabarti, Nirmal Balachundar,
- Abstract要約: クロスエントロピートレーニングは、頭の中で暗黙の潜在的なゲームを引き起こす。
勾配降下は、潜在的に非有界な非効率でナッシュ平衡に収束する。
我々はこれを GAME-LoRA として、Barlow Twins decorrelation と対数行列座標圧を組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern transformer attention is internally multi-agent -- heads compete and coordinate -- yet we train it as if it were a monolithic optimizer. We formalize this gap: cross-entropy training induces an implicit potential game among heads, and gradient descent converges to Nash equilibria with potentially unbounded inefficiency due to unpriced externalities (redundancy, correlated errors). Our main result bounds the Price of Anarchy by $Γ(G)$, the off-diagonal mass of a head interaction matrix capturing weight and gradient coupling. Under mild smoothness assumptions, we prove that both \emph{excess hallucination probability} and \emph{excess head redundancy} scale with PoA, unifying two distinct failure modes into a single mechanism. The bound is prescriptive: regularization that reduces $Γ(G)$ provably tightens PoA. We instantiate this as GAME-LoRA, combining Barlow Twins decorrelation with log-determinant coordination pressure. Experiments validate the theory: $Γ(G)$ predicts hallucination ($p{<}0.05$), emergent coalitions exhibit selective coordination, and GAME-LoRA achieves up to 18\% hallucination reduction (8\% average) with no knowledge degradation -- a Pareto improvement inaccessible to methods ignoring the game structure.
- Abstract(参考訳): 現代のトランスフォーマーの注目は、内部のマルチエージェント -- ヘッドの競合とコーディネート -- にありますが、モノリシックなオプティマイザのようにトレーニングします。
クロスエントロピートレーニングは、頭の中で暗黙のポテンシャルゲームを引き起こし、勾配降下は、プライドな外部性(冗長性、相関誤差)によって潜在的に非有界な非効率でナッシュ平衡に収束する。
我々の主な結果は、重みと勾配のカップリングを捉えた頭部相互作用行列の対角質量である$(G)$でアナーキーの価格を束縛する。
軽度な滑らかさの仮定の下では,2つの異なる障害モードを単一のメカニズムに統一し,それぞれがPoAでスケールすることが証明される。
有界性は規範的であり、正則化は$(G)$を減らし、PoAを確実に締め付ける。
我々はこれを GAME-LoRA として、Barlow Twins decorrelation と対数行列座標圧を組み合わせる。
実験は、この理論を検証している:$(G)$は幻覚(p{<}0.05$)を予測し、創発的連立は選択的な調整を示し、GAME-LoRAは知識劣化のない最大18\%の幻覚減少(平均8\%)を達成する。
関連論文リスト
- Scale-Invariant Fast Convergence in Games [67.02769061793619]
我々は,スケールフリーでもスケール不変でも,高速収束を実現する学習力学を開発した。
2プレーヤゼロサムゲームに対しては、$tildeO(A_mathrmdiff)$で有界な外部後悔を伴うスケールフリーかつスケール不変のダイナミクスが得られる。
マルチプレイヤーの汎用ゲームでは、過去の観測に基づいて観察された勾配をクリップする2倍のクリッピングと呼ばれる手法によって、スケールフリーの学習も可能となる。
論文 参考訳(メタデータ) (2026-02-12T11:57:20Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - Witness wedges in fidelity-deviation plane: separating teleportation advantage and Bell-inequality violation [0.0]
我々は、2つの相補的なメリットの図形の合同幾何学を通して量子テレポーテーションを解析するための統一的な枠組みを開発する。
特に、任意の測定ペア$(F D)$は、等方性資源の可視性推定に移植することができる。
論文 参考訳(メタデータ) (2025-11-26T05:43:31Z) - Blind Inverse Game Theory: Jointly Decoding Rewards and Rationality in Entropy-Regularized Competitive Games [0.0]
観測行動から$theta$と$tau$を共同で回収する最初の統計フレームワークであるBlind-IGTを紹介する。
結合パラメータの回復に最適な$mathcalO(N-1/2)$収束率を達成できることを示す。
フレームワークをマルコフゲームに拡張し、強い経験的性能で最適な収束率を示す。
論文 参考訳(メタデータ) (2025-11-07T16:27:59Z) - Convergence of Regret Matching in Potential Games and Constrained Optimization [85.55969013318627]
RM$+$の交互収束は、$O_epsilon (1/epsilon4)$の後に$Epsilon$-KKT点に収束し、それが音で高速な一階数であることを示す。
我々の下界は、ポテンシャルゲームにおける粗相関平衡への収束が、ナッシュ平衡への収束よりも指数関数的に速いことを示している。
論文 参考訳(メタデータ) (2025-10-20T00:45:47Z) - On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非コンケーブゲームにおいて、抽出可能な$Phi$-equilibriaについて検討する。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Provably Efficient Generalized Lagrangian Policy Optimization for Safe
Multi-Agent Reinforcement Learning [105.7510838453122]
制約付きマルコフゲームを用いたオンライン安全なマルチエージェント強化学習について検討する。
我々は,このラグランジアン問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と,投影勾配ステップによる双対変数を更新する。
論文 参考訳(メタデータ) (2023-05-31T22:09:24Z) - Global Nash Equilibrium in Non-convex Multi-player Game: Theory and
Algorithms [66.8634598612777]
ナッシュ均衡(NE)はマルチプレイヤーゲームにおいて全てのプレイヤーに受け入れられることを示す。
また、一般理論から一歩ずつ一方的に利益を得ることはできないことも示している。
論文 参考訳(メタデータ) (2023-01-19T11:36:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。