論文の概要: ARMS: Automatic Reward Shaping for Sparse-Reward Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.23562v1
- Date: Fri, 22 May 2026 12:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.342952
- Title: ARMS: Automatic Reward Shaping for Sparse-Reward Multi-Agent Reinforcement Learning
- Title(参考訳): ARMS:スパース・リバース・マルチエージェント強化学習のための自動リワード整形
- Authors: Elie Abboud, Oren Gal,
- Abstract要約: マルチエージェント強化学習のためのマルチエージェントシステム(ARMS)における自動リワード整形を提案する。
ARMSは、軌跡ランキングを通じて、粗い環境報酬から密な整形信号を学習する。
我々は,ARMSが政策学習と報奨学習を交互に交互に行い,エージェント間の整形パラメータを効率よく共有することを示した。
- 参考スコア(独自算出の注目度): 2.2801444394060257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sparse rewards are a major bottleneck in multi-agent reinforcement learning (MARL), where simultaneous learning induces non-stationarity and makes reward design especially delicate. Reward shaping can accelerate learning, but in the multi-agent setting it must preserve the strategic structure of the problem rather than merely improve short-term optimization. We propose Automatic Reward-shaping in Multi-agent Systems (ARMS), a self-supervised reward shaping framework for MARL that learns dense shaping signals from sparse environmental rewards through trajectory ranking. Since single-agent trajectory-ranking guarantees do not directly transfer to MARL, we reformulate policy invariance through conditional best-response reasoning, and show that if certain conditions hold, then using shaping rewards preserves each agent's best-response set under fixed opponent policies, and consequently preserve the set of Nash equilibria. Guided by this perspective, ARMS alternates between policy learning and reward learning while sharing shaping parameters across agents for efficiency. Experiments in a partially observable multi-agent pathfinding domain show that ARMS improves sampling efficiency under increasing reward sparsity and agent count, generalizes to unseen environments, and reveals a MARL-specific failure mode in which limited exploration and coupled policy--reward dynamics induce oscillatory behavior. Increasing exploration mitigates this effect and stabilizes learning. To the best of our knowledge, ARMS is the first automatic reward shaping framework for MARL whose design is motivated by a game-theoretic equilibrium-preservation result.
- Abstract(参考訳): スパース報酬はマルチエージェント強化学習(MARL)において大きなボトルネックであり、同時学習は非定常性を誘導し、特に報酬設計を繊細にする。
逆整形は学習を加速させるが、マルチエージェント環境では、短期最適化を単に改善するのではなく、問題の戦略的構造を維持する必要がある。
MARLのための自己教師型報酬形成フレームワークであるMulti-Adnt Systems (ARMS) における自動報酬形成を提案する。
単一エージェントの軌道レベルの保証は直接MARLに遷移しないので、条件付きベストレスポンス推論によってポリシーの不変性を再構成し、ある条件が成立すれば、整形報酬を用いることで、固定された反対ポリシーの下で各エージェントのベストレスポンスセットを保存し、ナッシュ均衡の集合を保存することを示す。
この視点で導かれたARMSは、政策学習と報酬学習を交互に行い、エージェント間の整形パラメータを共有して効率を上げる。
部分的に観測可能なマルチエージェントパスフィンディング領域の実験により、ARMSは、報酬空間とエージェント数の増加によるサンプリング効率の向上、見えない環境への一般化、および、限られた探索と結合されたポリシ-リワードダイナミクスが振動挙動を誘発するMARL固有の障害モードを明らかにする。
探索の増加は、この効果を緩和し、学習を安定化させる。
我々の知る限り、ARMSはゲーム理論平衡保存結果に動機づけられたMARLのための最初の自動報酬形成フレームワークである。
関連論文リスト
- Preference-Guided Learning for Sparse-Reward Multi-Agent Reinforcement Learning [15.034714081414691]
少額の報酬のある環境におけるオンラインマルチエージェント強化学習(MARL)の課題について検討する。
中間報酬の欠如は、標準のMARLアルゴリズムがポリシー学習を効果的に導くのを妨げる。
本稿では,オンライン・逆選好学習とマルチエージェント・オン・ポリシー最適化を統合した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T03:41:40Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning [0.27528170226206433]
本稿では,過度な報酬を伴う環境下での学習エージェントの効率向上を目的とした,本質的なモチベーション戦略の2つの組み合わせについて検討する。
本稿では,変分自動エンコーダ(VAE)の報奨状態の新規性を,大言語モデル(LLM)から派生した帰納的報奨手法を用いて,変分状態を内在的リワード(VSIMR)として統合することを提案する。
実験の結果, この組み合わせ戦略は, 各戦略を個別に使用した場合と比較して, エージェント性能と効率を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T19:10:58Z) - Adversarial Training of Reward Models [74.17196154247964]
本稿では,対戦型学習フレームワークAdv-RMについて紹介する。
強化学習を活用することで、Adv-RMは、大規模な最先端の報酬モデルにおける脆弱性を明らかにするポリシーを訓練する。
本稿では,Adv-RMが従来の報酬訓練よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T15:38:25Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。