論文の概要: RUMAD: Reinforcement-Unifying Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2602.23864v1
- Date: Fri, 27 Feb 2026 10:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.358013
- Title: RUMAD: Reinforcement-Unifying Multi-Agent Debate
- Title(参考訳): RUMAD: 強化統合マルチエージェント議論
- Authors: Chao Wang, Han Lin, Huaze Tang, Huijing Lin, Wenbo Ding,
- Abstract要約: マルチエージェント討論(MAD)システムは、推論能力を高めるために集団知性を活用する。
既存のアプローチは、精度、コンセンサス形成、計算効率を同時に最適化するのに苦労している。
RUMADは,MADにおける動的通信トポロジ制御を強化学習(RL)問題として定式化する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 15.05837715937063
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-agent debate (MAD) systems leverage collective intelligence to enhance reasoning capabilities, yet existing approaches struggle to simultaneously optimize accuracy, consensus formation, and computational efficiency. Static topology methods lack adaptability to task complexity variations, while external LLM-based coordination risks introducing privileged knowledge that compromises debate neutrality. This work presents RUMAD (Reinforcement-Unifying Multi-Agent Debate), a novel framework that formulates dynamic communication topology control in MAD as a reinforcement learning (RL) problem. RUMAD employs a content-agnostic observation scheme that captures high-level debate dynamics avoiding access to raw agent reasoning content. RUMAD uses a multi-objective reward to model solution quality, cohesion and efficiency. A PPO-trained controller dynamically adjusts edge weights in the communication graph, while a dual-threshold mechanism enables fine-grained control over both agent activation and information visibility. Experimental evaluation across MMLU, GSM8K, and GPQA benchmarks demonstrates that RUMAD achieves substantial efficiency gains, reducing token costs by over 80\%, while still improving reasoning accuracy compared to single LLM model and multiple MAD baselines. Notably, RUMAD trained exclusively on MMLU exhibits robust zero-shot generalization to out-of-domain (OOD) tasks, indicating that the learned communication strategies capture task-independent principles of effective multi-agent coordination. These results establish RUMAD as a efficient and robust approach for deploying multi-agent reasoning application with practical resource constraints.
- Abstract(参考訳): マルチエージェント討論(MAD)システムは、集合知を利用して推論能力を向上させるが、既存のアプローチは精度、コンセンサス形成、計算効率の同時最適化に苦慮している。
静的トポロジー法はタスク複雑性の変動への適応性を欠いているが、外部のLCMに基づく協調リスクは、議論の中立性を損なう特権知識を導入する。
RUMAD(Reinforcement-Unifying Multi-Agent Debate)は、MADにおける動的通信トポロジ制御を強化学習(RL)問題として定式化する新しいフレームワークである。
RUMADは、生エージェント推論コンテンツへのアクセスを避けるために、ハイレベルな議論のダイナミクスをキャプチャする、コンテンツに依存しない観察スキームを採用している。
RUMADは、ソリューションの品質、凝集、効率をモデル化するために、多目的報酬を使用する。
PPO学習コントローラは通信グラフのエッジウェイトを動的に調整し、二重閾値機構はエージェントアクティベーションと情報視認性の両方をきめ細かな制御を可能にする。
MMLU, GSM8K, GPQAベンチマークによる実験的評価により, RUMADは高い効率向上を実現し, トークンコストを80%以上削減し, 単一LLMモデルと複数のMADベースラインと比較して推論精度を向上した。
特に,MMLUに特化して訓練されたRUMADは,領域外(OOD)タスクに対する堅牢なゼロショットの一般化を示し,学習されたコミュニケーション戦略が,効果的なマルチエージェント協調のタスク非依存の原則を捉えていることを示す。
これらの結果から, RUMADは, 実資源制約によるマルチエージェント推論アプリケーションをデプロイするための, 効率的かつ堅牢なアプローチとして確立された。
関連論文リスト
- Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Multi-Agent Deep Reinforcement Learning for Collaborative UAV Relay Networks under Jamming Atatcks [36.380478794869234]
本稿では,この課題を,分散実行トレーニング(CTDE)フレームワークを用いて解決したMARL(Multi-Agent Reinforcement Learning)問題として定式化する。
提案手法はベースラインを著しく上回り,システム全体のスループットを約50%向上し,同時にほぼゼロの衝突速度を実現した。
重要な発見は、エージェントが明示的なプログラミングなしに創発的なアンチジャミング戦略を開発することである。
論文 参考訳(メタデータ) (2025-12-09T08:11:21Z) - Agentic AI Reasoning for Mobile Edge General Intelligence: Fundamentals, Approaches, and Directions [74.35421055079655]
大規模言語モデル(LLM)は、強力な推論と自律的な意思決定能力を備えたエージェント人工知能(AI)の出現を可能にした。
Mobile Edge General Intelligence (MEGI)は、リアルタイムでプライバシ保護の推論をネットワークエッジにもたらす。
本稿では,MEGIにおけるLLM推論の効率的な展開のための共同最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-27T10:53:48Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - MAD-Spear: A Conformity-Driven Prompt Injection Attack on Multi-Agent Debate Systems [4.931691794637798]
マルチエージェントディベート(MAD)システムは,大規模言語モデル(LLM)間の協調的な相互作用を利用して推論能力を向上させる。
MAD-Spearは,少数のエージェントを妨害するが,MADプロセス全体を著しく破壊するプロンプトインジェクション攻撃である。
論文 参考訳(メタデータ) (2025-07-17T12:09:39Z) - Heterogeneous Group-Based Reinforcement Learning for LLM-based Multi-Agent Systems [25.882461853973897]
本稿では、相対報酬の利点を推定して政策更新を導くマルチエージェント不均一グループ政策最適化(MHGPO)を提案する。
MHGPOは、批判的ネットワークの必要性を排除し、安定性を向上し、計算オーバーヘッドを減らす。
また,効率性と有効性を両立させる3つのグループロールアウトサンプリング戦略も導入する。
論文 参考訳(メタデータ) (2025-06-03T10:17:19Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Effective Multi-Agent Deep Reinforcement Learning Control with Relative
Entropy Regularization [6.441951360534903]
複数のエージェントによって制御される様々なシナリオにおいて、限られた能力とサンプル効率の問題に取り組むために、Multi-Agent Continuous Dynamic Policy Gradient (MACDPP)が提案された。
複数のエージェントのポリシー更新の不整合を緩和するために、アクター・クリティカル(AC)構造を持つ分散実行トレーニング(CTDE)フレームワークに相対エントロピー正規化を導入する。
論文 参考訳(メタデータ) (2023-09-26T07:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。