論文の概要: From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium
- arxiv url: http://arxiv.org/abs/2506.08292v1
- Date: Mon, 09 Jun 2025 23:49:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.871352
- Title: From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium
- Title(参考訳): 議論から平衡へ:ベイジアン・ナッシュ平衡による信念駆動型マルチエージェントLDM推論
- Authors: Xie Yi, Zhanke Zhou, Chentao Cao, Qiyu Niu, Tongliang Liu, Bo Han,
- Abstract要約: マルチエージェントフレームワークは、大規模言語モデル(LLM)の推論能力を高めることができるが、通常は計算コストと収束保証が欠如している。
我々は、不完全情報ゲームとしてマルチLLMコーディネーションをリキャストし、ベイズナッシュ均衡(BNE)を求める。
我々は、分散推論と集中的な最終出力を結合する階層的強化学習パラダイムである、Nash Equilibrium (ECON)による効率的なコーディネーションを導入する。
- 参考スコア(独自算出の注目度): 52.28048367430481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent frameworks can substantially boost the reasoning power of large language models (LLMs), but they typically incur heavy computational costs and lack convergence guarantees. To overcome these challenges, we recast multi-LLM coordination as an incomplete-information game and seek a Bayesian Nash equilibrium (BNE), in which each agent optimally responds to its probabilistic beliefs about the strategies of others. We introduce Efficient Coordination via Nash Equilibrium (ECON), a hierarchical reinforcement-learning paradigm that marries distributed reasoning with centralized final output. Under ECON, each LLM independently selects responses that maximize its expected reward, conditioned on its beliefs about co-agents, without requiring costly inter-agent exchanges. We mathematically prove that ECON attains a markedly tighter regret bound than non-equilibrium multi-agent schemes. Empirically, ECON outperforms existing multi-LLM approaches by 11.2% on average across six benchmarks spanning complex reasoning and planning tasks. Further experiments demonstrate ECON's ability to flexibly incorporate additional models, confirming its scalability and paving the way toward larger, more powerful multi-LLM ensembles. The code is publicly available at: https://github.com/tmlr-group/ECON.
- Abstract(参考訳): マルチエージェントフレームワークは、大規模言語モデル(LLM)の推論能力を大幅に向上させるが、一般的には計算コストと収束保証が欠如している。
これらの課題を克服するため、我々はマルチLLMコーディネーションを不完全情報ゲームとして再考し、各エージェントが他のエージェントの戦略に関する確率論的信念に最適に対応するベイズナッシュ均衡(BNE)を求める。
我々は、分散推論と集中的な最終出力を結合する階層的強化学習パラダイムである、Nash Equilibrium (ECON)による効率的なコーディネーションを導入する。
ECON の下では、それぞれの LLM は期待される報酬を最大化する応答を独立に選択する。
数学的には、ECONが非平衡マルチエージェントスキームよりも著しく厳密な後悔の限界に達することを証明している。
実証的には、ECONは複雑な推論と計画タスクにまたがる6つのベンチマークで、既存のマルチLLMアプローチを平均11.2%上回っている。
さらなる実験では、ECONがさらなるモデルを柔軟に組み込む能力を示し、スケーラビリティを確認し、より大きくより強力なマルチLLMアンサンブルへの道を開いた。
コードは、https://github.com/tmlr-group/ECON.comで公開されている。
関連論文リスト
- Why Keep Your Doubts to Yourself? Trading Visual Uncertainties in Multi-Agent Bandit Systems [21.356119126402902]
私たちは、不確実性のための分散市場として調整を再構築するフレームワークであるAgoraを紹介します。
トンプソンサンプリングを拡張した市場対応ブローカーは、協力を開始し、コスト効率の高い均衡に向けてシステムを誘導する。
結果は、市場ベースのコーディネーションを、経済的に実行可能なビジュアルインテリジェンスシステムを構築するための原則的でスケーラブルなパラダイムとして確立する。
論文 参考訳(メタデータ) (2026-01-26T17:58:53Z) - Mechanism-Based Intelligence (MBI): Differentiable Incentives for Rational Coordination and Guaranteed Alignment in Multi-Agent Systems [0.0]
メカニズムベースインテリジェンス(MBI: Mechanism-Based Intelligence)は,複数の「脳」の協調からインテリジェンスを再認識するパラダイムである。
経済原理に基づく協調的で信頼性が高くスケーラブルなマルチエージェントインテリジェンスに対して、証明可能な効率、監査可能、一般化可能なアプローチを提供する。
論文 参考訳(メタデータ) (2025-12-22T22:22:13Z) - Multimodal Reinforcement Learning with Agentic Verifier for AI Agents [131.46008226323423]
Argosは、エージェントタスクの推論モデルをトレーニングするための、原則化されたマルチモーダル報酬エージェントである。
エージェント検証をSFTデータとRLトレーニングの両方で活用することにより、我々のモデルは最先端の結果を得ることができる。
論文 参考訳(メタデータ) (2025-12-03T04:42:47Z) - Maestro: Learning to Collaborate via Conditional Listwise Policy Optimization for Multi-Agent LLMs [23.590034731179824]
我々は、認知モードを構造的に分離するコラボレーションのための原則的パラダイムである、ロールオーケストレーション(Maestro)を提示する。
Maestroは多様な探索のために並列実行エージェントの集合を使用し、収束的で評価的な合成のために特別中央エージェントを使用する。
数学的推論と一般的な問題解決ベンチマークの実験により、マエストロとCLPOは、既存の最先端のマルチエージェントアプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-11-08T21:01:27Z) - Controlling Performance and Budget of a Centralized Multi-agent LLM System with Reinforcement Learning [53.57360296655208]
大規模言語モデル(LLM)は、ドメイン間で補完的な強みを示し、様々な推論コストが伴う。
既存のアプローチは分散化されたフレームワークに依存しており、入力毎に複数のLSMを呼び出すため、実質的で制御されていない推論コストが発生する。
我々は,LLMコントローラが,コスト効率とコスト制御が可能な方法で,専門家モデルのプールを選択的にコーディネートする,集中型マルチLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T17:35:17Z) - Everyone Contributes! Incentivizing Strategic Cooperation in Multi-LLM Systems via Sequential Public Goods Games [4.3891974840097925]
多エージェント協調系列公共財ゲーム(MAC-SPGG)
マルチLLMアンサンブルにおける協調を体系的に動機付けるための,ゲーム理論に基づく新しい強化学習フレームワークを提案する。
本研究は,スケーラブルで堅牢なマルチエージェント言語生成のための構造的,インセンティブに整合したMAC-SPGG協力の力を強調した。
論文 参考訳(メタデータ) (2025-08-04T05:36:07Z) - Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs [25.067282214293904]
本稿では,特にSFT(Supervised Fine-Tuning)やRLVR(Reinforcement Learning with Verifiable Rewards)といったポストトレーニング手法が,マルチエージェントシナリオに$textit Generalize$を効果的に適用できるかどうかを考察する。
我々は、経済的推論をテストベッドとして使用し、数学とゲーム理論の強力な基盤を活用している。
経済推論ベンチマークとマルチエージェントゲームに関する総合的な評価は、構造化推論と経済合理性において明らかに改善されていることを示している。
論文 参考訳(メタデータ) (2025-05-31T14:22:40Z) - Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to the Top-$k$ Experts [3.6787328174619254]
我々はTop-k$ Learning-to-Deferの最初のフレームワークを紹介します。
提案するTop-$k(x)$ Learning-to-Deferは,入力複雑性,エキスパート品質,コンサルテーションコストに基づいて,クエリ毎の専門家数を最適に学習する適応型拡張である。
論文 参考訳(メタデータ) (2025-04-17T14:50:40Z) - Vairiational Stochastic Games [1.6703448188585752]
本稿では分散型マルチエージェントシステムに適した新しい変分推論フレームワークを提案する。
我々のフレームワークは、非定常性と非整合エージェントの目的によって引き起こされる課題に対処する。
提案した分散アルゴリズムに対する理論的収束保証を示す。
論文 参考訳(メタデータ) (2025-03-08T03:21:23Z) - Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。
GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文 参考訳(メタデータ) (2025-03-07T18:03:13Z) - Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs [61.07130026622437]
大規模言語モデル(LLM)は、まだ自然言語推論タスクに苦戦している。
心の社会に動機づけられて、我々はReConcileを提案する。
LLMエージェント間のラウンドテーブル会議として設計されたマルチモデルマルチエージェントフレームワーク。
論文 参考訳(メタデータ) (2023-09-22T17:12:45Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [45.377385280485065]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
我々は,サンプルの複雑さ,トレーニング不安定性,および準最適ナッシュ平衡に収束するリスクに関する問題を解決するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
HASACは、Bi-DexHands、Multi-Agent MuJoCo、StarCraft Challenge、Google Research Football、Multi-Agent Particle Environment、Light Aircraft Gameの6つのベンチマークで評価する。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential
Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。
このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。
実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文 参考訳(メタデータ) (2023-04-20T14:47:54Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。