Fugu-MT 論文翻訳(概要): MAGIC: Multi-Step Advantage-Gated Causal Influence for Multi-agent Reinforcement Learning

論文の概要: MAGIC: Multi-Step Advantage-Gated Causal Influence for Multi-agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2605.01805v1
Date: Sun, 03 May 2026 10:05:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.946612
Title: MAGIC: Multi-Step Advantage-Gated Causal Influence for Multi-agent Reinforcement Learning
Title（参考訳）: MAGIC:マルチステップアドバンテージ強化学習における因果関係の影響
Authors: Haohan Yu, Jinmiao Cong, Shengzhi Wang, Lu Wang, Chanjuan Liu,
Abstract要約: MAGICはエージェント間の多段階因果関係を抽出し、固有報酬に選択的に変換するフレームワークである。 MPEやSMAC/SMACv2など、標準的なMARLベンチマークやタスクファミリでの実験では、MAGICが最先端の手法よりも大幅に優れていることが示されている。
参考スコア（独自算出の注目度）: 6.921926002713527
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A key challenge in multi-agent reinforcement learning (MARL) lies in designing learning signals that effectively promote coordination among agents. Designing such signals necessitates the ability to quantify the true, long-term causal influence between agents. To address this, we introduce Multi-step Advantage-Gated Interventional Causal MARL (MAGIC), a framework that extracts multi-step causal influences between agents and selectively converts them into intrinsic rewards. MAGIC uses causal intervention with conditional mutual information to quantify long-horizon agent influence, and introduces an advantage-based gating mechanism to ensure exploration is directed toward beneficial, goal-aligned behaviors. Experiments across multiple standard MARL benchmarks and task families, including MPE and SMAC/SMACv2, demonstrate that MAGIC outperforms state-of-the-art methods by a significant margin, achieving an improvement of at least 10.1% in the main evaluation metric.
Abstract（参考訳）: マルチエージェント強化学習(MARL)における鍵となる課題は、エージェント間の協調を効果的に促進する学習信号の設計である。このようなシグナルを設計するには、エージェント間の真の長期的な因果関係を定量化する能力が必要である。そこで本稿では,エージェント間の多段階因果関係を抽出し,固有報酬に選択的に変換するフレームワークであるMulti-step Advantage-Gated Interventional Causal MARL(MAGIC)を紹介する。 MAGICは、条件付き相互情報による因果的介入を用いて、長距離エージェントの影響を定量化し、探索が有益で目標に沿った行動に向けられるように、有利なゲーティング機構を導入する。 MPEやSMAC/SMACv2など、複数の標準的なMARLベンチマークやタスクファミリに対する実験では、MAGICが最先端の手法よりもかなりのマージンで優れており、主評価基準では少なくとも10.1%の改善が達成されている。

関連論文リスト

AffectAgent: Collaborative Multi-Agent Reasoning for Retrieval-Augmented Multimodal Emotion Recognition [62.16431420189863]
LLMに基づくマルチモーダル感情認識は静的なパラメトリックメモリに依存しており、ニュアンス化された感情状態の解釈時にしばしば幻覚を与える。本稿では,感情指向型マルチエージェント検索拡張生成フレームワークであるAffectAgentを紹介する。 AffectAgentは3つの共同最適化されたエージェント、すなわちクエリプランナー、エビデンスフィルタ、感情生成器から構成される。
論文参考訳（メタデータ） (2026-04-14T13:49:19Z)
MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization [66.82303841930752]
拡散言語モデル (DLMs) は従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢を提供する。 DLMは、特にデノナイジングステップの数が減少するにつれて、LLMよりも遅れている。本稿では,マルチリワード最適化 (MRO) 手法を提案する。
論文参考訳（メタデータ） (2025-10-24T13:57:59Z)
Understanding Action Effects through Instrumental Empowerment in Multi-Agent Reinforcement Learning [39.74025439412935]
本研究は,政策分布の分析のみでエージェント行動に対する有意義な洞察を抽出できるかどうかを考察する。知的エージェントが収束器質的価値を追求する傾向にある現象にインスパイアされた我々は、ICV(Intended Cooperation Values)を導入する。 ICVは、その決定(不確実性)と選好の整合性を評価することで、チームメイトの方針に対するエージェントの作用を測定する。
論文参考訳（メタデータ） (2025-08-21T15:35:59Z)
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文参考訳（メタデータ） (2025-05-29T01:02:55Z)
Enhancing CTR Prediction with De-correlated Expert Networks [45.50697497028273]
本稿では,専門的相関を最小化するクロスエキスパートデコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレーショナル・デコレー我々はD-MoEがMulti-Embedding MoEベースラインと比較して1.19%のGross Merchandise Volume (GMV)リフトを達成することを示す。
論文参考訳（メタデータ） (2025-05-23T14:04:38Z)
A Roadmap Towards Improving Multi-Agent Reinforcement Learning With Causal Discovery And Inference [0.24578723416255746]
因果推論は、学習プロセスを改善するために強化学習(Reinforcement Learning, RL)においてますます用いられる。しかし、MARL(Multi-Agent RL)に対する因果推論の応用は、いまだに未解明である。我々は、MARLにおける因果推論の適用の機会と課題を調査する第一歩を踏み出す。
論文参考訳（メタデータ） (2025-03-22T15:49:13Z)
O-MAPL: Offline Multi-agent Preference Learning [5.4482836906033585]
実演から報酬関数を推定することは強化学習(RL)の重要な課題である協調型MARLのためのエンドツーエンドの嗜好に基づく新しい学習フレームワークを提案する。我々のアルゴリズムは様々なタスクにまたがって既存の手法より優れている。
論文参考訳（メタデータ） (2025-01-31T08:08:20Z)
FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。 FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-15T16:45:16Z)
Situation-Dependent Causal Influence-Based Cooperative Multi-agent Reinforcement Learning [18.054709749075194]
我々は、状況依存因果関係に基づく協調マルチエージェント強化学習(SCIC)という新しいMARLアルゴリズムを提案する。本研究の目的は,特定の状況におけるエージェント間因果関係の影響を,因果介入と条件付き相互情報を用いて検出することである。結果として得られたアップデートは、協調した探索と本質的な報酬分布をリンクし、全体的なコラボレーションとパフォーマンスを高めた。
論文参考訳（メタデータ） (2023-12-15T05:09:32Z)
Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2022-06-01T04:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。