論文の概要: A Game Theoretic Free Energy Analysis of Higher Order Synergy in Attention Heads of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.09515v1
- Date: Sun, 10 May 2026 12:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.290468
- Title: A Game Theoretic Free Energy Analysis of Higher Order Synergy in Attention Heads of Large Language Models
- Title(参考訳): 大規模言語モデルのアテンションヘッドにおける高次シナジーのゲーム理論自由エネルギー解析
- Authors: Djamel Bouchaffra,
- Abstract要約: ゲーム理論自由エネルギー原理を用いて,有界な有理エージェントとして注目ヘッドを解析する。
GTFEPによると、それぞれの頭は変動自由エネルギーを最小化し、集団行動は連立構造上のギブス分布に従う。
我々の研究は、GTFEPがトランスフォーマーアーキテクチャの分析と最適化のための原則的な基盤を提供することを示している。
- 参考スコア(独自算出の注目度): 0.08122270502556375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models rely on multihead attention, but interactions among heads remain poorly understood. We apply the Game Theoretic Free Energy Principle (GTFEP): a framework casting multiagent systems as distributed variational inference to analyze attention heads as bounded rational agents. According to GTFEP, each head minimizes its variational free energy, and collective behavior follows a Gibbs distribution over coalition structures whose energy is decomposed into Harsanyi dividends. Using a tractable approximation (uniform prior, deterministic dynamics), coalition free energy reduces to joint Shannon entropy of discretized head outputs (argmax key index). Pairwise dividends become mutual information (nonnegative), while triple dividends correspond to interaction information and can be negative. On BERT, GPT2, and Llama with GSM8K, triple dividends are consistently negative, revealing higher order redundancy. The Nash FEP correspondence guarantees that stationary points of collective free energy are epsilon Nash equilibria; thus, heads with negligible contribution can be pruned with minimal performance loss. Pruning heads with low marginal contribution reduces computational cost with minimal performance loss: for example, pruning 20% of heads in GPT2 reduces FLOPs by 18%, increases throughput by 22%, and raises perplexity only modestly (from 28.4 to 33.4 on GSM8K). Our work shows GTFEP provides a principled foundation for analyzing and optimizing transformer architectures.
- Abstract(参考訳): 大規模言語モデルはマルチヘッドの注意に頼っているが、頭部間の相互作用はあまり理解されていない。
ゲーム理論自由エネルギー原理(GTFEP: Game Theoretic Free Energy Principle: GTFEP)は,マルチエージェントシステムを分散変分推論としてキャストするフレームワークで,アテンションヘッドを有界有理エージェントとして分析する。
GTFEPによると、それぞれの頭は変動自由エネルギーを最小化し、集団行動は、エネルギーがハルサニー配位に分解される連立構造上のギブス分布に従う。
トラクタブル近似 (uniform pre, deterministic dynamics) を用いて、連立自由エネルギーは離散化されたヘッド出力(argmax key index)の結合シャノンエントロピーに還元される。
ペアワイズ配当は相互情報(非負)となり、トリプル配当は相互作用情報に対応し、負となる。
GSM8Kを持つBERT、GPT2、Llamaでは、三重配位は常に負であり、高次冗長性を示す。
ナッシュFEP対応は、集合自由エネルギーの定常点がエプシロン・ナッシュ平衡であることを保証するため、最小性能の損失で負の寄与を持つ首を刈り取ることができる。
例えば、GPT2で20%のヘッドをプルーニングするとFLOPが18%減少し、スループットが22%向上し、難易度はわずかに上昇する(GSM8Kでは28.4から33.4まで)。
我々の研究は、GTFEPがトランスフォーマーアーキテクチャの分析と最適化のための原則的な基盤を提供することを示している。
関連論文リスト
- Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。
我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。
OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2026-01-12T10:48:02Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Connectivity-Guided Sparsification of 2-FWL GNNs: Preserving Full Expressivity with Improved Efficiency [15.330129666665927]
接続性を考慮したスペーシフィケーションフレームワークである textbfCo-Sparsify を提案する。
私たちのキーとなる洞察は、3ノードの相互作用は、エンファンビコネクテッドなコンポーネントの中でのみ、表現的に必要であるということです。
Co-Sparsify は 2-FWL テストと同じくらい表現力があることを示す。
論文 参考訳(メタデータ) (2025-11-16T23:46:54Z) - GIFT: Group-relative Implicit Fine Tuning Integrates GRPO with DPO and UNA [6.07907277934348]
GIFTはアライメントのための新しい強化学習フレームワークである。
暗黙の報酬モデルと明示的な報酬モデルとの差を最小限にする。
数学的ベンチマークにおいて優れた推論とアライメント性能を達成する。
論文 参考訳(メタデータ) (2025-10-27T21:18:19Z) - Differentiable Sparsity via $D$-Gating: Simple and Versatile Structured Penalization [22.883367233817836]
D$-Gatingは、理論上、元の群疎性問題の解法と等価であることを示す。
ビジョン、言語、タスクにまたがって私たちの理論を検証する。
論文 参考訳(メタデータ) (2025-09-28T14:08:29Z) - Rate-Distortion Limits for Multimodal Retrieval: Theory, Optimal Codes, and Finite-Sample Guarantees [0.0]
マルチモーダル検索のための第一情報理論の限界
エントロピー対応コントラスト目標,連続学習型検索器,検索強化型生成器の設計指針
論文 参考訳(メタデータ) (2025-09-14T02:45:56Z) - Adaptive, Doubly Optimal No-Regret Learning in Strongly Monotone and Exp-Concave Games with Gradient Feedback [75.29048190099523]
オンライン勾配降下(OGD)は、強い凸性や単調性仮定の下では二重最適であることが知られている。
本稿では,これらのパラメータの事前知識を必要としない完全適応型OGDアルゴリズム,textsfAdaOGDを設計する。
論文 参考訳(メタデータ) (2023-10-21T18:38:13Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。