論文の概要: MAGIC: Multi-Step Advantage-Gated Causal Influence for Multi-agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.01805v2
- Date: Sun, 10 May 2026 14:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 19:24:01.145616
- Title: MAGIC: Multi-Step Advantage-Gated Causal Influence for Multi-agent Reinforcement Learning
- Title(参考訳): MAGIC:マルチステップアドバンテージ強化学習における因果関係の影響
- Authors: Haohan Yu, Jinmiao Cong, Shengzhi Wang, Lu Wang, Chanjuan Liu,
- Abstract要約: MRIC(Multi-step Advantage-Gated Interventional Causal MARL)について紹介する。
MAGICはエージェント間の多段階の作用効果を推定し、それらを固有の報酬に選択的に変換する。
マルチエージェント粒子環境(MPE)とStarCraftマイクロマネジメントベンチマーク(SMACとSMACv2)の実験は、MAGICが先行する手法よりも一貫して優れていることを示している。
- 参考スコア(独自算出の注目度): 6.921926002713527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in multi-agent reinforcement learning (MARL) lies in designing learning signals that effectively promote coordination among agents. Designing such signals requires estimating how one agent's current action affects its teammates over future interaction steps. To address this, we introduce Multi-step Advantage-Gated Interventional Causal MARL (MAGIC), a framework that estimates multi-step action effects between agents and selectively converts them into intrinsic rewards. MAGIC uses counterfactual action interventions to compare teammate futures under factual and counterfactual branches, and introduces a gate based on advantage to direct exploration toward beneficial behaviors aligned with the task goal. Experiments on Multi-Agent Particle Environments (MPE) and StarCraft micromanagement benchmarks (SMAC and SMACv2) show that MAGIC consistently outperforms leading prior methods, with average relative final performance improvements of 26.9% and 10.1%, respectively.
- Abstract(参考訳): マルチエージェント強化学習(MARL)における鍵となる課題は、エージェント間の協調を効果的に促進する学習信号の設計である。
このようなシグナルを設計するには、あるエージェントの現在のアクションが将来のインタラクションステップに対してチームメイトにどのように影響するかを推定する必要がある。
これを解決するために,エージェント間の多段階作用効果を推定し,それらを本質的な報酬に選択的に変換するフレームワークであるMulti-step Advantage-Gated Interventional Causal MARL(MAGIC)を導入する。
MAGICは、ファクトとデファクトのブランチにおけるチームメイトの将来を比較するために、反ファクトのアクション介入を使用しており、タスク目標に沿った有益な行動への直接的な探索の利点に基づくゲートを導入している。
Multi-Agent Particle Environments (MPE) と StarCraft micromanagement benchmarks (SMAC と SMACv2) の実験では、MAGIC は、それぞれ 26.9% と 10.1% の相対的な最終性能向上で、先行手法よりも一貫して優れていた。
関連論文リスト
- AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。
本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。
AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文 参考訳(メタデータ) (2026-04-14T13:49:19Z) - MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization [66.82303841930752]
拡散言語モデル (DLMs) は従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢を提供する。
DLMは、特にデノナイジングステップの数が減少するにつれて、LLMよりも遅れている。
本稿では,マルチリワード最適化 (MRO) 手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T13:57:59Z) - Understanding Action Effects through Instrumental Empowerment in Multi-Agent Reinforcement Learning [39.74025439412935]
本研究は,政策分布の分析のみでエージェント行動に対する有意義な洞察を抽出できるかどうかを考察する。
知的エージェントが収束器質的価値を追求する傾向にある現象にインスパイアされた我々は、ICV(Intended Cooperation Values)を導入する。
ICVは、その決定(不確実性)と選好の整合性を評価することで、チームメイトの方針に対するエージェントの作用を測定する。
論文 参考訳(メタデータ) (2025-08-21T15:35:59Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - Enhancing CTR Prediction with De-correlated Expert Networks [45.50697497028273]
本稿では,専門的相関を最小化するクロスエキスパートデコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレー
我々はD-MoEがMulti-Embedding MoEベースラインと比較して1.19%のGross Merchandise Volume (GMV)リフトを達成することを示す。
論文 参考訳(メタデータ) (2025-05-23T14:04:38Z) - A Roadmap Towards Improving Multi-Agent Reinforcement Learning With Causal Discovery And Inference [0.24578723416255746]
因果推論は、学習プロセスを改善するために強化学習(Reinforcement Learning, RL)においてますます用いられる。
しかし、MARL(Multi-Agent RL)に対する因果推論の応用は、いまだに未解明である。
我々は、MARLにおける因果推論の適用の機会と課題を調査する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-03-22T15:49:13Z) - O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である
協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。
我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文 参考訳(メタデータ) (2025-01-31T08:08:20Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Situation-Dependent Causal Influence-Based Cooperative Multi-agent
Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。
本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。
結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文 参考訳(メタデータ) (2023-12-15T05:09:32Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。