論文の概要: MAGIC-MASK: Multi-Agent Guided Inter-Agent Collaboration with Mask-Based Explainability for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.00274v1
- Date: Tue, 30 Sep 2025 20:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.25299
- Title: MAGIC-MASK: Multi-Agent Guided Inter-Agent Collaboration with Mask-Based Explainability for Reinforcement Learning
- Title(参考訳): MAGIC-MASK:強化学習のためのマスクによるマルチエージェント間コラボレーション
- Authors: Maisha Maliha, Dean Hougen,
- Abstract要約: 本稿では,マルチエージェント強化学習への摂動に基づく説明を拡張した数学的基盤を持つMAGIC-MASKを提案する。
提案手法は, 近似ポリシ最適化, 適応型エプシロン・グレーディ探索, および軽量なエージェント間協調を統合した。
この共同作業により、各エージェントは給与誘導マスキングを行い、報酬に基づく洞察を仲間と共有し、臨界状態発見に必要な時間を短縮することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the decision-making process of Deep Reinforcement Learning agents remains a key challenge for deploying these systems in safety-critical and multi-agent environments. While prior explainability methods like StateMask, have advanced the identification of critical states, they remain limited by computational cost, exploration coverage, and lack of adaptation to multi-agent settings. To overcome these limitations, we propose a mathematically grounded framework, MAGIC-MASK (Multi-Agent Guided Inter-agent Collaboration with Mask-Based Explainability for Reinforcement Learning), that extends perturbation-based explanation to Multi-Agent Reinforcement Learning. Our method integrates Proximal Policy Optimization, adaptive epsilon-greedy exploration, and lightweight inter-agent collaboration to share masked state information and peer experience. This collaboration enables each agent to perform saliency-guided masking and share reward-based insights with peers, reducing the time required for critical state discovery, improving explanation fidelity, and leading to faster and more robust learning. The core novelty of our approach lies in generalizing explainability from single-agent to multi-agent systems through a unified mathematical formalism built on trajectory perturbation, reward fidelity analysis, and Kullback-Leibler divergence regularization. This framework yields localized, interpretable explanations grounded in probabilistic modeling and multi-agent Markov decision processes. We validate our framework on both single-agent and multi-agent benchmarks, including a multi-agent highway driving environment and Google Research Football, demonstrating that MAGIC-MASK consistently outperforms state-of-the-art baselines in fidelity, learning efficiency, and policy robustness while offering interpretable and transferable explanations.
- Abstract(参考訳): 深層強化学習エージェントの意思決定プロセスを理解することは、これらのシステムを安全クリティカルでマルチエージェントな環境にデプロイする上で、依然として重要な課題である。
StateMaskのような以前の説明可能性の手法は、臨界状態の同定を進歩させたが、計算コスト、探索カバレッジ、マルチエージェント設定への適応の欠如によって制限されたままである。
これらの制約を克服するために,マルチエージェント強化学習における摂動に基づく説明を拡張可能な数学的基盤を持つMAGIC-MASK(Multi-Agent Guided Inter-agent Collaboration with Mask-based Explainability for Reinforcement Learning)を提案する。
提案手法は,マスクされた状態情報とピアエクスペリエンスを共有するために,近似ポリシ最適化,適応型エプシロン・グリーディ探索,およびエージェント間コラボレーションを統合した。
このコラボレーションにより、各エージェントは給与誘導マスキングを行い、報酬に基づく洞察を仲間と共有し、重要な状態発見に必要な時間を短縮し、説明の忠実さを改善し、より速くより堅牢な学習につながる。
このアプローチの中核的な新規性は、軌道の摂動、報酬の忠実性分析、クルバック・リーブラーの発散正規化に基づく統一的な数学的定式化によって、単エージェントから多エージェントシステムへの説明可能性の一般化にある。
この枠組みは確率的モデリングとマルチエージェントマルコフ決定プロセスに基づく局所的で解釈可能な説明を与える。
我々は、マルチエージェントハイウェイ運転環境やGoogle Research Footballを含むシングルエージェントとマルチエージェントのベンチマークにおいて、私たちのフレームワークを検証し、MAGIC-MASKが解釈可能かつ伝達可能な説明を提供しながら、忠実さ、学習効率、ポリシーの堅牢性において、最先端のベースラインを一貫して上回っていることを実証した。
関連論文リスト
- Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning [49.31650627835956]
システムがスケールアップすると、部分的なエージェントの障害は避けられないものとなり、全体的なパフォーマンスが著しく低下するエージェントのサブセットを特定することが重要になる。
本稿では,大規模マルチエージェント強化学習(MARL)における脆弱性エージェント識別(VAI)問題について検討する。
実験により, 大規模MARLおよびルールベースシステムにおいて, より脆弱なエージェントを効果的に同定し, システムを悪用し, それぞれのエージェントの脆弱性を明らかにする値関数を学習した。
論文 参考訳(メタデータ) (2025-09-18T16:03:50Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards [1.179778723980276]
MARL(Multi-agent Reinforcement Learning)は、シーケンシャルな意思決定と制御タスクの鍵となるフレームワークである。
これらのシステムを現実のシナリオに展開するには、分散トレーニング、多様なエージェントセット、そして頻繁な環境報酬信号から学ぶ必要がある。
我々は,新しいグラフニューラルネットワーク(GNN)に基づく本質的なモチベーションを利用して,異種エージェントポリシーの学習を容易にするCoHetアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-12T21:38:40Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Beyond Rewards: a Hierarchical Perspective on Offline Multiagent
Behavioral Analysis [14.656957226255628]
本稿では,マルチエージェント領域における行動クラスタの発見のためのモデルに依存しない手法を提案する。
我々のフレームワークはエージェントの基盤となる学習アルゴリズムを前提とせず、潜伏状態やモデルへのアクセスを必要とせず、完全にオフラインで観察データを使って訓練することができる。
論文 参考訳(メタデータ) (2022-06-17T23:07:33Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。