論文の概要: MACCA: Offline Multi-agent Reinforcement Learning with Causal Credit
Assignment
- arxiv url: http://arxiv.org/abs/2312.03644v2
- Date: Fri, 29 Dec 2023 00:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 00:47:53.216736
- Title: MACCA: Offline Multi-agent Reinforcement Learning with Causal Credit
Assignment
- Title(参考訳): MACCA:Causal Credit Assignmentによるオフラインマルチエージェント強化学習
- Authors: Ziyan Wang, Yali Du, Yudi Zhang, Meng Fang, Biwei Huang
- Abstract要約: オフラインマルチエージェント強化学習(MARL)は、オンラインインタラクションが非現実的またはリスクのあるシナリオで有用である。
オフラインMARL設定におけるクレジット割り当てに対処する新しいフレームワークであるMulti-Agent Causal Credit Assignment (MACCA)を提案する。
- 参考スコア(独自算出の注目度): 34.862786348660094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline Multi-agent Reinforcement Learning (MARL) is valuable in scenarios
where online interaction is impractical or risky. While independent learning in
MARL offers flexibility and scalability, accurately assigning credit to
individual agents in offline settings poses challenges because interactions
with an environment are prohibited. In this paper, we propose a new framework,
namely Multi-Agent Causal Credit Assignment (MACCA), to address credit
assignment in the offline MARL setting. Our approach, MACCA, characterizing the
generative process as a Dynamic Bayesian Network, captures relationships
between environmental variables, states, actions, and rewards. Estimating this
model on offline data, MACCA can learn each agent's contribution by analyzing
the causal relationship of their individual rewards, ensuring accurate and
interpretable credit assignment. Additionally, the modularity of our approach
allows it to seamlessly integrate with various offline MARL methods.
Theoretically, we proved that under the setting of the offline dataset, the
underlying causal structure and the function for generating the individual
rewards of agents are identifiable, which laid the foundation for the
correctness of our modeling. In our experiments, we demonstrate that MACCA not
only outperforms state-of-the-art methods but also enhances performance when
integrated with other backbones.
- Abstract(参考訳): オフラインマルチエージェント強化学習(MARL)は、オンラインインタラクションが非現実的またはリスクのあるシナリオで有用である。
MARLの独立した学習は柔軟性とスケーラビリティを提供するが、オフライン環境で個々のエージェントにクレジットを正確に割り当てることは、環境とのインタラクションが禁止されているため、課題となる。
本稿では、オフラインMARL設定におけるクレジット割り当てに対処するため、MACCA(Multi-Agent Causal Credit Assignment)という新しいフレームワークを提案する。
我々のアプローチであるMACCAは、生成過程を動的ベイズネットワークとして特徴づけ、環境変数、状態、行動、報酬の関係を捉える。
このモデルをオフラインデータ上で推定すると、MACCAは個々の報酬の因果関係を分析し、正確かつ解釈可能なクレジット割り当てを確実にすることで、各エージェントの貢献を学習することができる。
さらに、このアプローチのモジュラリティにより、様々なオフラインMARLメソッドとシームレスに統合できます。
理論的には、オフラインデータセットの設定の下では、基礎となる因果構造とエージェントの個々の報酬を生成する関数が識別可能であることが証明され、モデリングの正確性の基礎となった。
実験では,MACCAが最先端の手法より優れるだけでなく,他のバックボーンと統合した場合の性能も向上することを示した。
関連論文リスト
- MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。
動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。
実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Offline Multi-Agent Reinforcement Learning with Coupled Value
Factorization [2.66512000865131]
OMACは結合値因数分解を伴う新しいオフラインマルチエージェントRLアルゴリズムである。
OMACは局所状態値関数でサンプル内学習を行い、局所レベルで最大Q演算を暗黙的に行う。
我々は、最先端のオフラインマルチエージェントRL法よりも優れたOMAC性能を示す。
論文 参考訳(メタデータ) (2023-06-15T07:08:41Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。