論文の概要: From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium
- arxiv url: http://arxiv.org/abs/2506.08292v1
- Date: Mon, 09 Jun 2025 23:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.871352
- Title: From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium
- Title(参考訳): 議論から平衡へ:ベイジアン・ナッシュ平衡による信念駆動型マルチエージェントLDM推論
- Authors: Xie Yi, Zhanke Zhou, Chentao Cao, Qiyu Niu, Tongliang Liu, Bo Han,
- Abstract要約: マルチエージェントフレームワークは、大規模言語モデル(LLM)の推論能力を高めることができるが、通常は計算コストと収束保証が欠如している。
我々は、不完全情報ゲームとしてマルチLLMコーディネーションをリキャストし、ベイズナッシュ均衡(BNE)を求める。
我々は、分散推論と集中的な最終出力を結合する階層的強化学習パラダイムである、Nash Equilibrium (ECON)による効率的なコーディネーションを導入する。
- 参考スコア(独自算出の注目度): 52.28048367430481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent frameworks can substantially boost the reasoning power of large language models (LLMs), but they typically incur heavy computational costs and lack convergence guarantees. To overcome these challenges, we recast multi-LLM coordination as an incomplete-information game and seek a Bayesian Nash equilibrium (BNE), in which each agent optimally responds to its probabilistic beliefs about the strategies of others. We introduce Efficient Coordination via Nash Equilibrium (ECON), a hierarchical reinforcement-learning paradigm that marries distributed reasoning with centralized final output. Under ECON, each LLM independently selects responses that maximize its expected reward, conditioned on its beliefs about co-agents, without requiring costly inter-agent exchanges. We mathematically prove that ECON attains a markedly tighter regret bound than non-equilibrium multi-agent schemes. Empirically, ECON outperforms existing multi-LLM approaches by 11.2% on average across six benchmarks spanning complex reasoning and planning tasks. Further experiments demonstrate ECON's ability to flexibly incorporate additional models, confirming its scalability and paving the way toward larger, more powerful multi-LLM ensembles. The code is publicly available at: https://github.com/tmlr-group/ECON.
- Abstract(参考訳): マルチエージェントフレームワークは、大規模言語モデル(LLM)の推論能力を大幅に向上させるが、一般的には計算コストと収束保証が欠如している。
これらの課題を克服するため、我々はマルチLLMコーディネーションを不完全情報ゲームとして再考し、各エージェントが他のエージェントの戦略に関する確率論的信念に最適に対応するベイズナッシュ均衡(BNE)を求める。
我々は、分散推論と集中的な最終出力を結合する階層的強化学習パラダイムである、Nash Equilibrium (ECON)による効率的なコーディネーションを導入する。
ECON の下では、それぞれの LLM は期待される報酬を最大化する応答を独立に選択する。
数学的には、ECONが非平衡マルチエージェントスキームよりも著しく厳密な後悔の限界に達することを証明している。
実証的には、ECONは複雑な推論と計画タスクにまたがる6つのベンチマークで、既存のマルチLLMアプローチを平均11.2%上回っている。
さらなる実験では、ECONがさらなるモデルを柔軟に組み込む能力を示し、スケーラビリティを確認し、より大きくより強力なマルチLLMアンサンブルへの道を開いた。
コードは、https://github.com/tmlr-group/ECON.comで公開されている。
関連論文リスト
- Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs [25.067282214293904]
本稿では,特にSFT(Supervised Fine-Tuning)やRLVR(Reinforcement Learning with Verifiable Rewards)といったポストトレーニング手法が,マルチエージェントシナリオに$textit Generalize$を効果的に適用できるかどうかを考察する。
我々は、経済的推論をテストベッドとして使用し、数学とゲーム理論の強力な基盤を活用している。
経済推論ベンチマークとマルチエージェントゲームに関する総合的な評価は、構造化推論と経済合理性において明らかに改善されていることを示している。
論文 参考訳(メタデータ) (2025-05-31T14:22:40Z) - Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to the Top-$k$ Experts [3.6787328174619254]
我々はTop-k$ Learning-to-Deferの最初のフレームワークを紹介します。
提案するTop-$k(x)$ Learning-to-Deferは,入力複雑性,エキスパート品質,コンサルテーションコストに基づいて,クエリ毎の専門家数を最適に学習する適応型拡張である。
論文 参考訳(メタデータ) (2025-04-17T14:50:40Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [45.377385280485065]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
我々は,サンプルの複雑さ,トレーニング不安定性,および準最適ナッシュ平衡に収束するリスクに関する問題を解決するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
HASACは、Bi-DexHands、Multi-Agent MuJoCo、StarCraft Challenge、Google Research Football、Multi-Agent Particle Environment、Light Aircraft Gameの6つのベンチマークで評価する。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。