Fugu-MT 論文翻訳(概要): From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium

論文の概要: From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium

arxiv url: http://arxiv.org/abs/2506.08292v1
Date: Mon, 09 Jun 2025 23:49:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:40.871352
Title: From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium
Title（参考訳）: 議論から平衡へ:ベイジアン・ナッシュ平衡による信念駆動型マルチエージェントLDM推論
Authors: Xie Yi, Zhanke Zhou, Chentao Cao, Qiyu Niu, Tongliang Liu, Bo Han,
Abstract要約: マルチエージェントフレームワークは、大規模言語モデル(LLM)の推論能力を高めることができるが、通常は計算コストと収束保証が欠如している。我々は、不完全情報ゲームとしてマルチLLMコーディネーションをリキャストし、ベイズナッシュ均衡(BNE)を求める。我々は、分散推論と集中的な最終出力を結合する階層的強化学習パラダイムである、Nash Equilibrium (ECON)による効率的なコーディネーションを導入する。
参考スコア（独自算出の注目度）: 52.28048367430481
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-agent frameworks can substantially boost the reasoning power of large language models (LLMs), but they typically incur heavy computational costs and lack convergence guarantees. To overcome these challenges, we recast multi-LLM coordination as an incomplete-information game and seek a Bayesian Nash equilibrium (BNE), in which each agent optimally responds to its probabilistic beliefs about the strategies of others. We introduce Efficient Coordination via Nash Equilibrium (ECON), a hierarchical reinforcement-learning paradigm that marries distributed reasoning with centralized final output. Under ECON, each LLM independently selects responses that maximize its expected reward, conditioned on its beliefs about co-agents, without requiring costly inter-agent exchanges. We mathematically prove that ECON attains a markedly tighter regret bound than non-equilibrium multi-agent schemes. Empirically, ECON outperforms existing multi-LLM approaches by 11.2% on average across six benchmarks spanning complex reasoning and planning tasks. Further experiments demonstrate ECON's ability to flexibly incorporate additional models, confirming its scalability and paving the way toward larger, more powerful multi-LLM ensembles. The code is publicly available at: https://github.com/tmlr-group/ECON.
Abstract（参考訳）: マルチエージェントフレームワークは、大規模言語モデル(LLM)の推論能力を大幅に向上させるが、一般的には計算コストと収束保証が欠如している。これらの課題を克服するため、我々はマルチLLMコーディネーションを不完全情報ゲームとして再考し、各エージェントが他のエージェントの戦略に関する確率論的信念に最適に対応するベイズナッシュ均衡(BNE)を求める。我々は、分散推論と集中的な最終出力を結合する階層的強化学習パラダイムである、Nash Equilibrium (ECON)による効率的なコーディネーションを導入する。 ECON の下では、それぞれの LLM は期待される報酬を最大化する応答を独立に選択する。数学的には、ECONが非平衡マルチエージェントスキームよりも著しく厳密な後悔の限界に達することを証明している。実証的には、ECONは複雑な推論と計画タスクにまたがる6つのベンチマークで、既存のマルチLLMアプローチを平均11.2%上回っている。さらなる実験では、ECONがさらなるモデルを柔軟に組み込む能力を示し、スケーラビリティを確認し、より大きくより強力なマルチLLMアンサンブルへの道を開いた。コードは、https://github.com/tmlr-group/ECON.comで公開されている。

関連論文リスト

Everyone Contributes! Incentivizing Strategic Cooperation in Multi-LLM Systems via Sequential Public Goods Games [4.3891974840097925]
多エージェント協調系列公共財ゲーム(MAC-SPGG) マルチLLMアンサンブルにおける協調を体系的に動機付けるための,ゲーム理論に基づく新しい強化学習フレームワークを提案する。本研究は,スケーラブルで堅牢なマルチエージェント言語生成のための構造的,インセンティブに整合したMAC-SPGG協力の力を強調した。
論文参考訳（メタデータ） (2025-08-04T05:36:07Z)
Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs [25.067282214293904]
本稿では,特にSFT(Supervised Fine-Tuning)やRLVR(Reinforcement Learning with Verifiable Rewards)といったポストトレーニング手法が,マルチエージェントシナリオに$textit Generalize$を効果的に適用できるかどうかを考察する。我々は、経済的推論をテストベッドとして使用し、数学とゲーム理論の強力な基盤を活用している。経済推論ベンチマークとマルチエージェントゲームに関する総合的な評価は、構造化推論と経済合理性において明らかに改善されていることを示している。
論文参考訳（メタデータ） (2025-05-31T14:22:40Z)
Why Ask One When You Can Ask $k$? Two-Stage Learning-to-Defer to the Top-$k$ Experts [3.6787328174619254]
我々はTop-k$ Learning-to-Deferの最初のフレームワークを紹介します。提案するTop-$k(x)$ Learning-to-Deferは,入力複雑性,エキスパート品質,コンサルテーションコストに基づいて,クエリ毎の専門家数を最適に学習する適応型拡張である。
論文参考訳（メタデータ） (2025-04-17T14:50:40Z)
Vairiational Stochastic Games [1.6703448188585752]
本稿では分散型マルチエージェントシステムに適した新しい変分推論フレームワークを提案する。我々のフレームワークは、非定常性と非整合エージェントの目的によって引き起こされる課題に対処する。提案した分散アルゴリズムに対する理論的収束保証を示す。
論文参考訳（メタデータ） (2025-03-08T03:21:23Z)
Symbolic Mixture-of-Experts: Adaptive Skill-based Routing for Heterogeneous Reasoning [76.10639521319382]
シンボリックなテキストベースでグラデーションのないMixture-of-ExpertsフレームワークであるSybolic-MoEを提案する。 GPT4o-miniのような強力なLCMやマルチエージェントアプローチに勝るSymbolic-MoEは、最高のマルチエージェントベースラインよりも8.15%向上している。
論文参考訳（メタデータ） (2025-03-07T18:03:13Z)
Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文参考訳（メタデータ） (2024-07-25T14:28:58Z)
Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-04-25T15:59:16Z)
ReConcile: Round-Table Conference Improves Reasoning via Consensus among Diverse LLMs [61.07130026622437]
大規模言語モデル(LLM)は、まだ自然言語推論タスクに苦戦している。心の社会に動機づけられて、我々はReConcileを提案する。 LLMエージェント間のラウンドテーブル会議として設計されたマルチモデルマルチエージェントフレームワーク。
論文参考訳（メタデータ） (2023-09-22T17:12:45Z)
Maximum Entropy Heterogeneous-Agent Reinforcement Learning [45.377385280485065]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。我々は,サンプルの複雑さ,トレーニング不安定性,および準最適ナッシュ平衡に収束するリスクに関する問題を解決するための統一的な枠組みを提案する。 The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。 HASACは、Bi-DexHands、Multi-Agent MuJoCo、StarCraft Challenge、Google Research Football、Multi-Agent Particle Environment、Light Aircraft Gameの6つのベンチマークで評価する。
論文参考訳（メタデータ） (2023-06-19T06:22:02Z)
Inducing Stackelberg Equilibrium through Spatio-Temporal Sequential Decision-Making in Multi-Agent Reinforcement Learning [17.101534531286298]
我々は、すべてのエージェントが共有する条件付きハイパーネットワークに基づいて、ナッシュレベルのポリシーモデルを構築する。このアプローチは対称的実行を伴う非対称なトレーニングを可能にし、各エージェントは、上位エージェントによる決定に最適な条件で応答する。実験により,本手法は繰り返し行列ゲームシナリオにおいて,SEポリシーに効果的に収束することを示した。
論文参考訳（メタデータ） (2023-04-20T14:47:54Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Finding General Equilibria in Many-Agent Economic Simulations Using Deep Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文参考訳（メタデータ） (2022-01-03T17:00:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。