論文の概要: Causal Mean Field Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.14200v1
- Date: Thu, 20 Feb 2025 02:15:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:44:02.902354
- Title: Causal Mean Field Multi-Agent Reinforcement Learning
- Title(参考訳): 因果的意味での多エージェント強化学習
- Authors: Hao Ma, Zhiqiang Pu, Yi Pan, Boyin Liu, Junlong Gao, Zhenyu Guo,
- Abstract要約: 平均場強化学習(MFRL)と呼ばれるフレームワークは、平均場理論を用いることでスケーラビリティの問題を軽減することができる。
このフレームワークには、非定常環境下での本質的な相互作用を識別する能力がない。
拡張性問題に対処するために,因果平均Q-ラーニング (CMFQ) と呼ばれるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.767740092703777
- License:
- Abstract: Scalability remains a challenge in multi-agent reinforcement learning and is currently under active research. A framework named mean-field reinforcement learning (MFRL) could alleviate the scalability problem by employing the Mean Field Theory to turn a many-agent problem into a two-agent problem. However, this framework lacks the ability to identify essential interactions under nonstationary environments. Causality contains relatively invariant mechanisms behind interactions, though environments are nonstationary. Therefore, we propose an algorithm called causal mean-field Q-learning (CMFQ) to address the scalability problem. CMFQ is ever more robust toward the change of the number of agents though inheriting the compressed representation of MFRL's action-state space. Firstly, we model the causality behind the decision-making process of MFRL into a structural causal model (SCM). Then the essential degree of each interaction is quantified via intervening on the SCM. Furthermore, we design the causality-aware compact representation for behavioral information of agents as the weighted sum of all behavioral information according to their causal effects. We test CMFQ in a mixed cooperative-competitive game and a cooperative game. The result shows that our method has excellent scalability performance in both training in environments containing a large number of agents and testing in environments containing much more agents.
- Abstract(参考訳): スケーラビリティは、マルチエージェント強化学習における課題であり、現在活発な研究が進められている。
平均場強化学習(MFRL)と呼ばれるフレームワークは、平均場理論を用いて、多エージェント問題を2エージェント問題に変換することによりスケーラビリティ問題を緩和することができる。
しかし、このフレームワークは非定常環境下での本質的な相互作用を識別する能力に欠ける。
因果性は相互作用の背後にある比較的不変な機構を含むが、環境は非定常である。
そこで本稿では,CMFQ (Cousal mean-field Q-learning) と呼ばれるアルゴリズムを提案する。
CMFQはMFRLの作用状態空間の圧縮表現を継承するが、エージェント数の変化に対してより堅牢である。
まず、MFRLの意思決定プロセスの背後にある因果関係を構造因果モデル(SCM)にモデル化する。
次に、各相互作用の本質的な度合いは、SCM上での介入によって定量化される。
さらに、エージェントの行動情報に対する因果性を考慮したコンパクト表現を、その因果効果に応じて全ての行動情報の重み付け和として設計する。
協調競争ゲームと協調ゲームでCMFQをテストする。
その結果,本手法は多数のエージェントを含む環境におけるトレーニングと,さらに多くのエージェントを含む環境におけるテストの両方において,優れたスケーラビリティ性能を有することがわかった。
関連論文リスト
- AgentAlign: Misalignment-Adapted Multi-Agent Perception for Resilient Inter-Agent Sensor Correlations [8.916036880001734]
既存の研究は、マルチエージェント設定における脆弱なマルチセンサ相関を概観している。
AgentAlignは、現実世界の異種エージェントのクロスモダリティ機能アライメントフレームワークである。
多様な環境条件下での現実的なセンサの欠陥をシミュレートする新しいV2XSet-noiseデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-09T01:51:18Z) - Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - ROMAX: Certifiably Robust Deep Multiagent Reinforcement Learning via
Convex Relaxation [32.091346776897744]
サイバー物理攻撃は、マルチエージェント強化学習の堅牢性に挑戦することができる。
我々は,他のエージェントの最悪のポリシー更新を推測するミニマックスMARL手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T16:18:35Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。