論文の概要: M3HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality
- arxiv url: http://arxiv.org/abs/2503.02077v2
- Date: Thu, 06 Mar 2025 20:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:51.365269
- Title: M3HF: Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality
- Title(参考訳): M3HF:混在品質の多相フィードバックによるマルチエージェント強化学習
- Authors: Ziyan Wang, Zhicheng Zhang, Fei Fang, Yali Du,
- Abstract要約: 混合品質の多相フィードバック(M3HF)から多エージェント強化学習を導入する。
M3HFはMARLトレーニングプロセスに混成品質のマルチフェーズフィードバックを統合する新しいフレームワークである。
提案手法は,様々な品質レベルにまたがるニュアンスされた人間の洞察の統合を可能にし,マルチエージェント協調の解釈可能性と堅牢性を高める。
- 参考スコア(独自算出の注目度): 37.679251313916765
- License:
- Abstract: Designing effective reward functions in multi-agent reinforcement learning (MARL) is a significant challenge, often leading to suboptimal or misaligned behaviors in complex, coordinated environments. We introduce Multi-agent Reinforcement Learning from Multi-phase Human Feedback of Mixed Quality (M3HF), a novel framework that integrates multi-phase human feedback of mixed quality into the MARL training process. By involving humans with diverse expertise levels to provide iterative guidance, M3HF leverages both expert and non-expert feedback to continuously refine agents' policies. During training, we strategically pause agent learning for human evaluation, parse feedback using large language models to assign it appropriately and update reward functions through predefined templates and adaptive weight by using weight decay and performance-based adjustments. Our approach enables the integration of nuanced human insights across various levels of quality, enhancing the interpretability and robustness of multi-agent cooperation. Empirical results in challenging environments demonstrate that M3HF significantly outperforms state-of-the-art methods, effectively addressing the complexities of reward design in MARL and enabling broader human participation in the training process.
- Abstract(参考訳): マルチエージェント強化学習(MARL)における効果的な報酬関数の設計は重要な課題であり、複雑で協調された環境において、しばしば準最適あるいは不整合な行動を引き起こす。
混合品質のマルチフェーズフィードバックをMARLトレーニングプロセスに統合する,M3HF(Multi-phase Human Feedback of Mixed Quality)によるマルチエージェント強化学習を紹介する。
M3HFは、様々な専門知識を持つ人間に反復的なガイダンスを提供することによって、専門家と非専門家の両方のフィードバックを活用して、エージェントのポリシーを継続的に洗練する。
トレーニング中,人的評価のためのエージェント学習を戦略的に停止し,大規模言語モデルを用いたフィードバックを解析し,それを適切に割り当て,事前定義されたテンプレートと適応重みによる報酬関数の更新を行う。
提案手法は,様々な品質レベルにまたがるニュアンスされた人間の洞察の統合を可能にし,マルチエージェント協調の解釈可能性と堅牢性を高める。
挑戦環境における実証的な結果は、M3HFが最先端の手法を著しく上回り、MARLにおける報酬設計の複雑さに効果的に対処し、トレーニングプロセスにおけるより広範な人間参加を可能にすることを示した。
関連論文リスト
- Cooperative Multi-Agent Planning with Adaptive Skill Synthesis [16.228784877899976]
強化学習を用いたマルチエージェントシステムでは, サンプル効率, 解釈可能性, 伝達性に課題が生じる。
本稿では、視覚言語モデル(VLM)を動的スキルライブラリと統合し、分散化されたクローズドループ決定のための構造化通信を行う新しいマルチエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-14T13:23:18Z) - O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である
協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。
我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文 参考訳(メタデータ) (2025-01-31T08:08:20Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-29T18:08:37Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - MMD-MIX: Value Function Factorisation with Maximum Mean Discrepancy for
Cooperative Multi-Agent Reinforcement Learning [15.972363414919279]
MMD-mixは分散強化学習と値分解を組み合わせた手法である。
実験により、MDD-mixはStar Multi-Agent Challenge (SMAC)環境において、以前のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-22T10:21:00Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。