論文の概要: Adaptive Robust Estimator for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.21574v1
- Date: Mon, 23 Mar 2026 04:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.493841
- Title: Adaptive Robust Estimator for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための適応ロバスト推定器
- Authors: Zhongyi Li, Wan Tian, Jingyu Chen, Kangyao Huang, Huiming Zhang, Hui Yang, Tao Ren, Jinyang Jiang, Yijie Peng, Yikun Ban, Fuzhen Zhuang,
- Abstract要約: 協調推論のための頑健な多エージェント強化学習フレームワークを提案する。
Dual-Agent Answer-Critique-Rewrite (DACR)とAdaptive Robust Estimator (ARE)の2つのコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 27.595086716369483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent collaboration has emerged as a powerful paradigm for enhancing the reasoning capabilities of large language models, yet it suffers from interaction-level ambiguity that blurs generation, critique, and revision, making credit assignment across agents difficult. Moreover, policy optimization in this setting is vulnerable to heavy-tailed and noisy rewards, which can bias advantage estimation and trigger unstable or even divergent training. To address both issues, we propose a robust multi-agent reinforcement learning framework for collaborative reasoning, consisting of two components: Dual-Agent Answer-Critique-Rewrite (DACR) and an Adaptive Robust Estimator (ARE). DACR decomposes reasoning into a structured three-stage pipeline: answer, critique, and rewrite, while enabling explicit attribution of each agent's marginal contribution to its partner's performance. ARE provides robust estimation of batch experience means during multi-agent policy optimization. Across mathematical reasoning and embodied intelligence benchmarks, even under noisy rewards, our method consistently outperforms the baseline in both homogeneous and heterogeneous settings. These results indicate stronger robustness to reward noise and more stable training dynamics, effectively preventing optimization failures caused by noisy reward signals.
- Abstract(参考訳): 大規模言語モデルの推論能力を高めるための強力なパラダイムとしてマルチエージェントコラボレーションが登場したが、生成、批判、リビジョンを曖昧にする相互作用レベルの曖昧さに悩まされ、エージェント間のクレジット割り当てが困難になる。
さらに、この設定におけるポリシーの最適化は重くノイズの多い報酬に弱いため、有利な推定をバイアスし、不安定なトレーニングや散発的なトレーニングも引き起こすことができる。
両課題に対処するため,Dual-Agent Answer-Critique-Rewrite (DACR) とAdaptive Robust Estimator (ARE) の2つのコンポーネントからなる,協調推論のための堅牢なマルチエージェント強化学習フレームワークを提案する。
DACRは推論を、答え、批評、書き直しという構造化された3段階のパイプラインに分解し、各エージェントのパートナーのパフォーマンスに対する限界貢献の明示的な帰結を可能にする。
AREはマルチエージェントポリシー最適化中にバッチエクスペリエンス平均を堅牢に推定する。
数学的推論や具体的インテリジェンスベンチマークの他、ノイズの多い報奨の下でも、同質および異質な設定において、我々の手法はベースラインを一貫して上回っている。
これらの結果から,雑音に対する強い強靭性とより安定したトレーニング力学が示され,雑音の報奨信号による最適化障害を効果的に防止できた。
関連論文リスト
- CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Adversarial Robustness in Two-Stage Learning-to-Defer: Algorithms and Guarantees [6.792743621449621]
2段階のL2D(Learning-to-Defer)は、各入力を固定されたメインモデルまたは複数のオフライン専門家のいずれかに割り当てることで、最適なタスクデリゲートを可能にする。
既存のL2Dフレームワークはクリーンな入力を前提としており、クエリ割り当てを操作できる敵の摂動に弱い。
2段階L2Dシステムにおける対向ロバスト性の最初の包括的研究について述べる。
論文 参考訳(メタデータ) (2025-02-03T03:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。