論文の概要: MIR: Efficient Exploration in Episodic Multi-Agent Reinforcement Learning via Mutual Intrinsic Reward
- arxiv url: http://arxiv.org/abs/2511.17165v1
- Date: Fri, 21 Nov 2025 11:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.992575
- Title: MIR: Efficient Exploration in Episodic Multi-Agent Reinforcement Learning via Mutual Intrinsic Reward
- Title(参考訳): MIR:多元強化学習における相互内因性逆流による効率的な探索
- Authors: Kesheng Chen, Wenjian Luo, Bang Zhang, Zeping Yin, Zipeng Ye,
- Abstract要約: 本稿では,強化学習のための簡易かつ効果的な強化戦略であるMIRを紹介する。
MIRは、個々のエージェントに対して、チームメイトに影響を与えるアクションを探求するインセンティブを与え、元の戦略と組み合わせることで、チームの探索を効果的に刺激し、アルゴリズムのパフォーマンスを改善する。
評価式は,MiniGrid-MA設定における最先端手法に対する提案手法と比較し,優れたPerfor-manceを示す実験結果と比較した。
- 参考スコア(独自算出の注目度): 14.959716217301368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Episodic rewards present a significant challenge in reinforcement learning. While intrinsic reward methods have demonstrated effectiveness in single-agent rein-forcement learning scenarios, their application to multi-agent reinforcement learn-ing (MARL) remains problematic. The primary difficulties stem from two fac-tors: (1) the exponential sparsity of joint action trajectories that lead to rewards as the exploration space expands, and (2) existing methods often fail to account for joint actions that can influence team states. To address these challenges, this paper introduces Mutual Intrinsic Reward (MIR), a simple yet effective enhancement strategy for MARL with extremely sparse rewards like episodic rewards. MIR incentivizes individual agents to explore actions that affect their teammates, and when combined with original strategies, effectively stimulates team exploration and improves algorithm performance. For comprehensive experimental valida-tion, we extend the representative single-agent MiniGrid environment to create MiniGrid-MA, a series of MARL environments with sparse rewards. Our evalu-ation compares the proposed method against state-of-the-art approaches in the MiniGrid-MA setting, with experimental results demonstrating superior perfor-mance.
- Abstract(参考訳): エピソード報酬は強化学習において大きな課題となる。
固有報酬法は単エージェント強化学習のシナリオにおいて有効性を示したが、そのマルチエージェント強化学習(MARL)への応用は依然として問題である。
主な課題は,(1) 探索空間が拡大するにつれて報酬につながる共同行動軌跡の指数的間隔,(2) 既存の方法ではチーム状態に影響を及ぼす共同行動の考慮に失敗する。
これらの課題に対処するために,MARL の簡易かつ効果的な拡張戦略である Mutual Intrinsic Reward (MIR) を導入する。
MIRは、個々のエージェントに対して、チームメイトに影響を与えるアクションを探求するインセンティブを与え、元の戦略と組み合わせることで、チームの探索を効果的に刺激し、アルゴリズムのパフォーマンスを改善する。
総合的な実験的なバリデーションのために、代表的なシングルエージェントのMiniGrid環境を拡張して、少ない報酬を持つ一連のMARL環境であるMiniGrid-MAを作成する。
評価式は,MiniGrid-MA設定における最先端手法に対する提案手法と比較し,優れたPerfor-manceを示す実験結果と比較した。
関連論文リスト
- LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning [0.27528170226206433]
本稿では,過度な報酬を伴う環境下での学習エージェントの効率向上を目的とした,本質的なモチベーション戦略の2つの組み合わせについて検討する。
本稿では,変分自動エンコーダ(VAE)の報奨状態の新規性を,大言語モデル(LLM)から派生した帰納的報奨手法を用いて,変分状態を内在的リワード(VSIMR)として統合することを提案する。
実験の結果, この組み合わせ戦略は, 各戦略を個別に使用した場合と比較して, エージェント性能と効率を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-25T19:10:58Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
RLE(Random Latent Exploration)は、強化学習における単純かつ効果的な探索戦略である。
RLEは、エージェントの行動を混乱させるノイズベースの手法と、新しい行動を試みるエージェントに報酬を与えるボーナスベースの探索を平均的に上回る。
RLEはノイズベースの手法と同じくらい単純であり、複雑なボーナス計算は避けるが、ボーナスベースの手法の深い探索の利点を保っている。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Imagine, Initialize, and Explore: An Effective Exploration Method in
Multi-Agent Reinforcement Learning [27.81925751697255]
複雑なシナリオにおける効率的なマルチエージェント探索法を提案する。
我々は、状態、観察、プロンプト、行動、報酬が自己回帰的に予測されるシーケンスモデリング問題として想像を定式化する。
臨界状態のエージェントを初期化することにより、IIEは潜在的に重要な未探索領域を発見する可能性を大幅に高める。
論文 参考訳(メタデータ) (2024-02-28T01:45:01Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - REMAX: Relational Representation for Multi-Agent Exploration [13.363887960136102]
ゲームの初期状態を生成する学習ベースの探索戦略を提案する。
本手法は,既存の探査手法よりも,MARLモデルの訓練と性能を向上させることを実証する。
論文 参考訳(メタデータ) (2020-08-12T10:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。