論文の概要: Understanding Action Effects through Instrumental Empowerment in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2508.15652v2
- Date: Sat, 23 Aug 2025 17:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 12:26:22.572341
- Title: Understanding Action Effects through Instrumental Empowerment in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習におけるインスツルメンタルエンパワーメントによる行動効果の理解
- Authors: Ardian Selmonaj, Miroslav Strupl, Oleg Szehr, Alessandro Antonucci,
- Abstract要約: 本研究は,政策分布の分析のみでエージェント行動に対する有意義な洞察を抽出できるかどうかを考察する。
知的エージェントが収束器質的価値を追求する傾向にある現象にインスパイアされた我々は、ICV(Intended Cooperation Values)を導入する。
ICVは、その決定(不確実性)と選好の整合性を評価することで、チームメイトの方針に対するエージェントの作用を測定する。
- 参考スコア(独自算出の注目度): 39.74025439412935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To reliably deploy Multi-Agent Reinforcement Learning (MARL) systems, it is crucial to understand individual agent behaviors. While prior work typically evaluates overall team performance based on explicit reward signals, it is unclear how to infer agent contributions in the absence of any value feedback. In this work, we investigate whether meaningful insights into agent behaviors can be extracted solely by analyzing the policy distribution. Inspired by the phenomenon that intelligent agents tend to pursue convergent instrumental values, we introduce Intended Cooperation Values (ICVs), a method based on information-theoretic Shapley values for quantifying each agent's causal influence on their co-players' instrumental empowerment. Specifically, ICVs measure an agent's action effect on its teammates' policies by assessing their decision (un)certainty and preference alignment. By analyzing action effects on policies and value functions across cooperative and competitive MARL tasks, our method identifies which agent behaviors are beneficial to team success, either by fostering deterministic decisions or by preserving flexibility for future action choices, while also revealing the extent to which agents adopt similar or diverse strategies. Our proposed method offers novel insights into cooperation dynamics and enhances explainability in MARL systems.
- Abstract(参考訳): マルチエージェント強化学習(MARL)システムを確実に展開するには,個々のエージェントの動作を理解することが重要である。
以前の作業では、明示的な報酬信号に基づいてチーム全体のパフォーマンスを評価するのが一般的でしたが、どのような価値フィードバックがなければ、エージェントのコントリビューションを推測する方法は明確ではありません。
本研究では,政策分布の分析のみでエージェント行動に対する有意義な洞察を抽出できるかどうかを検討する。
知的エージェントが集中器楽価値を追求する現象に着想を得て,情報理論的シェープリー値に基づく協調器楽のエンパワーメントに対する各エージェントの因果的影響の定量化手法であるICV(Intended Cooperation Values)を導入する。
特に、ICVは、その決定(不確実性)と嗜好の整合性を評価することで、チームメイトの方針に対するエージェントの作用を測定する。
協調的かつ競争的なMARLタスクにおける行動効果と価値関数を解析することにより、決定論的決定の促進や将来の行動選択の柔軟性の維持により、どのエージェント行動がチームの成功に有益かを識別し、エージェントが同様の戦略や多様な戦略を採用するかを明らかにする。
提案手法は協調力学の新たな知見を提供し,MARLシステムの説明可能性を高める。
関連論文リスト
- Exploring Big Five Personality and AI Capability Effects in LLM-Simulated Negotiation Dialogues [16.07828032939124]
本稿では,ミッションクリティカルな交渉文脈におけるエージェントAIシステムの評価フレームワークを提案する。
ソトピアをシミュレーションテストベッドとして使用し、人格特性とAIエージェント特性が社会的交渉結果にどのように影響するかを体系的に評価する2つの実験を行った。
論文 参考訳(メタデータ) (2025-06-19T00:14:56Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Learning responsibility allocations for multi-agent interactions: A differentiable optimization approach with control barrier functions [12.074590482085831]
責任レンズを介して安全なマルチエージェントインタラクションを規定する要因を定式化する。
本稿では,制御障壁関数と微分可能最適化に基づくデータ駆動モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T20:20:41Z) - Situation-Dependent Causal Influence-Based Cooperative Multi-agent
Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。
本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。
結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文 参考訳(メタデータ) (2023-12-15T05:09:32Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。