論文の概要: Preference-Guided Learning for Sparse-Reward Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.21828v1
- Date: Fri, 26 Sep 2025 03:41:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.160546
- Title: Preference-Guided Learning for Sparse-Reward Multi-Agent Reinforcement Learning
- Title(参考訳): スパース・リワード型マルチエージェント強化学習における優先指導型学習
- Authors: The Viet Bui, Tien Mai, Hong Thanh Nguyen,
- Abstract要約: 少額の報酬のある環境におけるオンラインマルチエージェント強化学習(MARL)の課題について検討する。
中間報酬の欠如は、標準のMARLアルゴリズムがポリシー学習を効果的に導くのを妨げる。
本稿では,オンライン・逆選好学習とマルチエージェント・オン・ポリシー最適化を統合した新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.034714081414691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of online multi-agent reinforcement learning (MARL) in environments with sparse rewards, where reward feedback is not provided at each interaction but only revealed at the end of a trajectory. This setting, though realistic, presents a fundamental challenge: the lack of intermediate rewards hinders standard MARL algorithms from effectively guiding policy learning. To address this issue, we propose a novel framework that integrates online inverse preference learning with multi-agent on-policy optimization into a unified architecture. At its core, our approach introduces an implicit multi-agent reward learning model, built upon a preference-based value-decomposition network, which produces both global and local reward signals. These signals are further used to construct dual advantage streams, enabling differentiated learning targets for the centralized critic and decentralized actors. In addition, we demonstrate how large language models (LLMs) can be leveraged to provide preference labels that enhance the quality of the learned reward model. Empirical evaluations on state-of-the-art benchmarks, including MAMuJoCo and SMACv2, show that our method achieves superior performance compared to existing baselines, highlighting its effectiveness in addressing sparse-reward challenges in online MARL.
- Abstract(参考訳): 我々は,各インタラクションにおいて報酬フィードバックが提供されず,軌道の終端でのみ露呈する環境において,オンラインマルチエージェント強化学習(MARL)の課題について検討する。
中間報酬の欠如は、標準のMARLアルゴリズムがポリシー学習を効果的に導くのを妨げる。
この問題に対処するために,オンライン・逆選好学習とマルチエージェント・オン・ポリティクス・最適化を統合アーキテクチャに統合する新しいフレームワークを提案する。
提案手法の中核となるのは,グローバルとローカルの両方の報酬信号を生成する優先型値分割ネットワーク上に構築された暗黙のマルチエージェント報酬学習モデルである。
これらの信号はさらに、2つの利点ストリームを構築するために使われ、中央集権的な批評家や分散型アクターのための異なる学習ターゲットを可能にしている。
さらに,大規模言語モデル(LLM)を用いて,学習した報酬モデルの品質を高めるための選好ラベルを提供することを実証する。
MAMuJoCo や SMACv2 などの最先端ベンチマークの実証評価により,本手法は既存のベースラインよりも優れた性能を示し,オンライン MARL におけるスパースリワード問題に対処する上での有効性を強調した。
関連論文リスト
- Online Process Reward Leanring for Agentic Reinforcement Learning [92.26560379363492]
大規模言語モデル(LLM)は、強化学習(RL)を自律的なエージェントとして訓練されることが増えている。
最近の研究は、プロセスの監視をエージェント学習に統合しようと試みているが、バイアスドアノテーションに悩まされている。
エージェントRLの一般的なクレジットアサインメント戦略であるオンライン・プロセス・リワード・ラーニング(OPRL)を紹介する。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning [0.27528170226206433]
本稿では,過度な報酬を伴う環境下での学習エージェントの効率向上を目的とした,本質的なモチベーション戦略の2つの組み合わせについて検討する。
本稿では,変分自動エンコーダ(VAE)の報奨状態の新規性を,大言語モデル(LLM)から派生した帰納的報奨手法を用いて,変分状態を内在的リワード(VSIMR)として統合することを提案する。
実験の結果, この組み合わせ戦略は, 各戦略を個別に使用した場合と比較して, エージェント性能と効率を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T19:10:58Z) - Ensemble-MIX: Enhancing Sample Efficiency in Multi-Agent RL Using Ensemble Methods [0.0]
マルチエージェント強化学習(MARL)法は,様々なマルチエージェントタスクにおいて最先端の結果を得た。
しかし、MARLアルゴリズムは、単一のエージェントよりもはるかに多くの環境相互作用を必要とする。
本稿では,分散された中央集権的批判と分散アンサンブル学習を組み合わせた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-03T13:13:15Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Multi-turn Reinforcement Learning from Preference Human Feedback [41.327438095745315]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好を整合させる標準的なアプローチとなっている。
既存のメソッドは、選好を単一の決定(ターン)レベルでエミュレートすることで機能する。
本研究では,2つの全会話間の嗜好フィードバックから強化学習のための新しい手法を開発する。
論文 参考訳(メタデータ) (2024-05-23T14:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。