論文の概要: On the Fundamental Limitations of Decentralized Learnable Reward Shaping in Cooperative Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.00034v1
- Date: Mon, 27 Oct 2025 07:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.528032
- Title: On the Fundamental Limitations of Decentralized Learnable Reward Shaping in Cooperative Multi-Agent Reinforcement Learning
- Title(参考訳): 協調型マルチエージェント強化学習における分散学習型リワード整形の基礎的限界について
- Authors: Aditya Akella,
- Abstract要約: DMARL-RSAは、各エージェントが個々の報酬形成を学習する完全に分散化されたシステムである。
高度な報酬学習にもかかわらず、DMARL-RSAは-24.20 +/- 0.09の平均報酬しか達成していない。
- 参考スコア(独自算出の注目度): 7.778458484124299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in learnable reward shaping have shown promise in single-agent reinforcement learning by automatically discovering effective feedback signals. However, the effectiveness of decentralized learnable reward shaping in cooperative multi-agent settings remains poorly understood. We propose DMARL-RSA, a fully decentralized system where each agent learns individual reward shaping, and evaluate it on cooperative navigation tasks in the simple_spread_v3 environment. Despite sophisticated reward learning, DMARL-RSA achieves only -24.20 +/- 0.09 average reward, compared to MAPPO with centralized training at 1.92 +/- 0.87 -- a 26.12-point gap. DMARL-RSA performs similarly to simple independent learning (IPPO: -23.19 +/- 0.96), indicating that advanced reward shaping cannot overcome fundamental decentralized coordination limitations. Interestingly, decentralized methods achieve higher landmark coverage (0.888 +/- 0.029 for DMARL-RSA, 0.960 +/- 0.045 for IPPO out of 3 total) but worse overall performance than centralized MAPPO (0.273 +/- 0.008 landmark coverage) -- revealing a coordination paradox between local optimization and global performance. Analysis identifies three critical barriers: (1) non-stationarity from concurrent policy updates, (2) exponential credit assignment complexity, and (3) misalignment between individual reward optimization and global objectives. These results establish empirical limits for decentralized reward learning and underscore the necessity of centralized coordination for effective multi-agent cooperation.
- Abstract(参考訳): 近年、学習可能な報酬形成の進歩は、効果的なフィードバック信号を自動的に発見することにより、単エージェント強化学習において有望であることが示されている。
しかし, 協調型マルチエージェント環境における分散学習型報酬形成の有効性はよく分かっていない。
DMARL-RSAは,各エージェントが個別の報酬形成を学習し,シンプルな_spread_v3環境下で協調的なナビゲーションタスクで評価する分散システムである。
高度な報酬学習にもかかわらず、DMARL-RSAの平均報酬は-24.20 +/- 0.09であり、MAPPOは1.92 +/- 0.87 -- 26.12ポイントの差がある。
DMARL-RSAは、単純な独立学習(IPPO: -23.19 +/- 0.96)と同様に、高度な報酬形成が基本的な分散的な調整制限を克服できないことを示す。
興味深いことに、分散化メソッドは、より高いランドマークカバレッジ(DMARL-RSAでは0.888 +/- 0.029、合計3つのIPPOでは0.960 +/- 0.045)を達成するが、集中型のMAPPO(0.273 +/- 0.008ランドマークカバレッジ)よりも全体的なパフォーマンスが劣っている。
分析では,(1)同時政策更新からの非定常性,(2)指数的信用割当複雑性,(3)個人報酬最適化とグローバル目標の相違,の3つの重要な障壁を明らかにした。
これらの結果は、分散報酬学習の実証的限界を確立し、効果的なマルチエージェント協調のための集中的な調整の必要性を浮き彫りにする。
関連論文リスト
- GEPO: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning [43.46954951944727]
パラメータ学習とロールアウトサンプリングを分離する異種RLアーキテクチャであるHeteroRLを提案する。
コアコンポーネントは、レイテンシに堅牢な非同期RLアルゴリズムであるグループ期待ポリシー最適化(GEPO)である。
GEPOが優れた安定性を実現していることを示す実験は、オンラインから1800年代のレイテンシまで、わずか3%のパフォーマンス低下である。
論文 参考訳(メタデータ) (2025-08-25T09:57:35Z) - MAGNNET: Multi-Agent Graph Neural Network-based Efficient Task Allocation for Autonomous Vehicles with Deep Reinforcement Learning [2.5022287664959446]
本稿では,グラフニューラルネットワーク(GNN)を一元的トレーニングと分散実行(CTDE)パラダイムに統合する新しいフレームワークを提案する。
本手法により,無人航空機 (UAV) と無人地上車両 (UGV) は, 中央調整を必要とせず, 効率よくタスクを割り当てることができる。
論文 参考訳(メタデータ) (2025-02-04T13:29:56Z) - Imitation Learning based Alternative Multi-Agent Proximal Policy
Optimization for Well-Formed Swarm-Oriented Pursuit Avoidance [15.498559530889839]
本稿では,分散学習に基づく代替的マルチエージェント・プロキシ・ポリシー最適化(IA-MAPPO)アルゴリズムを提案する。
擬似学習を利用して生成コントローラを分散化し,通信オーバーヘッドを低減し,スケーラビリティを向上させる。
シミュレーションの結果,IA-MAPPOの有効性が検証され,広範囲なアブレーション実験により,通信オーバーヘッドが著しく減少する集中型解に匹敵する性能が示された。
論文 参考訳(メタデータ) (2023-11-06T06:58:16Z) - Monotonic Improvement Guarantees under Non-stationarity for
Decentralized PPO [66.5384483339413]
我々は,MARL(Multi-Agent Reinforcement Learning)における分散政策の最適化のための新しい単調改善保証を提案する。
本研究では,訓練中のエージェント数に基づいて,独立した比率を限定することにより,信頼領域の制約を原則的に効果的に実施可能であることを示す。
論文 参考訳(メタデータ) (2022-01-31T20:39:48Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Adaptive Stochastic ADMM for Decentralized Reinforcement Learning in
Edge Industrial IoT [106.83952081124195]
強化学習 (Reinforcement Learning, RL) は, 意思決定および最適制御プロセスのための有望な解法として広く研究されている。
本稿では,Adaptive ADMM (asI-ADMM)アルゴリズムを提案する。
実験の結果,提案アルゴリズムは通信コストやスケーラビリティの観点から技術状況よりも優れており,複雑なIoT環境に適応できることがわかった。
論文 参考訳(メタデータ) (2021-06-30T16:49:07Z) - Is Independent Learning All You Need in the StarCraft Multi-Agent
Challenge? [100.48692829396778]
独立PPO (Independent PPO) は独立学習の一種であり、各エージェントはその局所値関数を単純に推定する。
IPPOの強い性能は、ある種の非定常性に対する堅牢性に起因する可能性がある。
論文 参考訳(メタデータ) (2020-11-18T20:29:59Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。