論文の概要: Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.00344v1
- Date: Wed, 01 Apr 2026 00:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.775428
- Title: Agent Q-Mix: Selecting the Right Action for LLM Multi-Agent Systems through Reinforcement Learning
- Title(参考訳): エージェントQ-Mix:強化学習によるLLMマルチエージェントシステムの正しい動作の選択
- Authors: Eric Hanchen Jiang, Levina Li, Rui Sun, Xiao Liang, Yubei Li, Yuchen Wu, Haozheng Luo, Hengli Li, Zhi Zhang, Zhaolu Kang, Kai-Wei Chang, Ying Nian Wu,
- Abstract要約: 協調型マルチエージェント強化学習問題としてトポロジ選択を再構成する強化学習フレームワークである textbfAgent Q-Mix を提案する。
提案手法は,Qmix値分解を用いて分散化された通信決定を学習し,各エージェントがラウンドワイド通信グラフを共同生成する一連の通信行動から選択する。
エージェントQ-Mixは,エージェント故障に対して優れたトークン効率とロバスト性を示しながら,既存手法と比較して高い平均精度を達成する。
- 参考スコア(独自算出の注目度): 68.85408801740228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable performance in completing various tasks. However, solving complex problems often requires the coordination of multiple agents, raising a fundamental question: how to effectively select and interconnect these agents. In this paper, we propose \textbf{Agent Q-Mix}, a reinforcement learning framework that reformulates topology selection as a cooperative Multi-Agent Reinforcement Learning (MARL) problem. Our method learns decentralized communication decisions using QMIX value factorization, where each agent selects from a set of communication actions that jointly induce a round-wise communication graph. At its core, Agent Q-Mix combines a topology-aware GNN encoder, GRU memory, and per-agent Q-heads under a Centralized Training with Decentralized Execution (CTDE) paradigm. The framework optimizes a reward function that balances task accuracy with token cost. Across seven core benchmarks in coding, reasoning, and mathematics, Agent Q-Mix achieves the highest average accuracy compared to existing methods while demonstrating superior token efficiency and robustness against agent failure. Notably, on the challenging Humanity's Last Exam (HLE) using Gemini-3.1-Flash-Lite as a backbone, Agent Q-Mix achieves 20.8\% accuracy, outperforming Microsoft Agent Framework (19.2\%) and LangGraph (19.2\%), followed by AutoGen and Lobster by OpenClaw. These results underscore the effectiveness of learned, decentralized topology optimization in pushing the boundaries of multi-agent reasoning.
- Abstract(参考訳): 大きな言語モデル(LLM)は、様々なタスクを完了させる際、顕著なパフォーマンスを示している。
しかし、複雑な問題を解決するには、しばしば複数のエージェントの調整が必要であり、これらのエージェントを効果的に選択し相互接続する方法という根本的な疑問を提起する。
本稿では,MARL(Multi-Agent Reinforcement Learning)問題としてトポロジ選択を再構成する強化学習フレームワークである「textbf{Agent Q-Mix}」を提案する。
提案手法は,QMIX値分解を用いて分散化された通信決定を学習し,各エージェントがラウンドワイド通信グラフを共同生成する一連の通信行動から選択する。
Agent Q-Mixのコアとなるのは、トポロジを意識したGNNエンコーダ、GRUメモリ、分散実行による集中トレーニング(CTDE)パラダイムの下でのエージェントQヘッドだ。
このフレームワークは、タスク精度とトークンコストのバランスをとる報酬関数を最適化する。
コーディング、推論、数学の7つのコアベンチマークにおいて、エージェントQ-Mixは既存の手法と比較して高い平均精度を達成し、優れたトークン効率とエージェントの失敗に対する堅牢性を示す。
特に、Gemini-3.1-Flash-Liteをバックボーンとして使用する挑戦的なヒューマニティのLast Exam(HLE)において、エージェントQ-Mixは20.8\%の精度を実現し、Microsoft Agent Framework(19.2\%)とLangGraph(19.2\%)を上回り、OpenClawのAutoGenとLobsterが続く。
これらの結果は,学習した分散トポロジ最適化がマルチエージェント推論の境界を推し進める上での有効性を裏付けるものである。
関連論文リスト
- AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - ComAgent: Multi-LLM based Agentic AI Empowered Intelligent Wireless Networks [62.031889234230725]
6Gネットワークは複雑な層間最適化に依存している。
数学の定式化に高レベルの意図を手動で翻訳することは、まだボトルネックである。
我々はマルチLLMエージェントAIフレームワークであるComAgentを紹介する。
論文 参考訳(メタデータ) (2026-01-27T13:43:59Z) - AgentAsk: Multi-Agent Systems Need to Ask [26.13279490836716]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステムは、協調的な分業による問題解決能力の向上を約束する。
我々はAgentAskを提案する。AgentAskは軽量でプラグ・アンド・プレイの明確化モジュールで、すべてのエージェント間メッセージを潜在的な障害点として扱い、エラーの伝播を抑えるのに必要最小限の質問を挿入する。
AgentAskは、公開マルチエージェント実装の精度と堅牢性を継続的に改善し、オーバーヘッドを最小限に抑え、レイテンシと余分なコストを5%以下に抑える。
論文 参考訳(メタデータ) (2025-10-08T22:36:05Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning [29.580108004844856]
大規模言語モデル(LLM)上に構築されたマルチエージェントシステム(MAS)は、複雑で現実的なタスクを解決するための有望な道を提供する。
テストタイムスケーリング(TTS)の最近の進歩は、難解な推論タスクにおいて、シングルエージェントのパフォーマンスを大幅に改善した。
モデルレベルのトレーニングとシステムレベルの調整の両方を通じて協調推論を強化するために設計された適応型マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T00:27:45Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Graph Convolutional Value Decomposition in Multi-Agent Reinforcement
Learning [9.774412108791218]
深層強化学習における値関数分解のための新しい枠組みを提案する。
特に、エージェントのチームは完全有向グラフのノードの集合であると考えている。
我々は,チーム状態-行動値関数を各エージェント毎の観察-行動値関数に分解する混合GNNモジュールを導入し,グローバルチーム報酬の分数で各エージェントに明示的なクレジット割り当てを行う。
論文 参考訳(メタデータ) (2020-10-09T18:01:01Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - Monotonic Value Function Factorisation for Deep Multi-Agent
Reinforcement Learning [55.20040781688844]
QMIXは、中央集権的なエンドツーエンドで分散ポリシーをトレーニングできる新しい価値ベースの手法である。
深層多エージェント強化学習のための新しいベンチマークとして,StarCraft Multi-Agent Challenge (SMAC)を提案する。
論文 参考訳(メタデータ) (2020-03-19T16:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。