論文の概要: MACCA: Offline Multi-agent Reinforcement Learning with Causal Credit
Assignment
- arxiv url: http://arxiv.org/abs/2312.03644v1
- Date: Wed, 6 Dec 2023 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 13:57:23.412271
- Title: MACCA: Offline Multi-agent Reinforcement Learning with Causal Credit
Assignment
- Title(参考訳): MACCA:Causal Credit Assignmentによるオフラインマルチエージェント強化学習
- Authors: Ziyan Wang, Yali Du, Yudi Zhang, Meng Fang, Biwei Huang
- Abstract要約: オフラインマルチエージェント強化学習(MARL)は、オンラインインタラクションが非現実的またはリスクのあるシナリオで有用である。
本稿では,環境変数,状態,行動,報酬間の関係をキャプチャするMACCAを提案する。
MACCAはSOTA法より優れ,背骨の性能が向上することを示す。
- 参考スコア(独自算出の注目度): 34.862786348660094
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline Multi-agent Reinforcement Learning (MARL) is valuable in scenarios
where online interaction is impractical or risky. While independent learning in
MARL offers flexibility and scalability, accurately assigning credit to
individual agents in offline settings poses challenges due to partial
observability and emergent behavior. Directly transferring the online credit
assignment method to offline settings results in suboptimal outcomes due to the
absence of real-time feedback and intricate agent interactions. Our approach,
MACCA, characterizing the generative process as a Dynamic Bayesian Network,
captures relationships between environmental variables, states, actions, and
rewards. Estimating this model on offline data, MACCA can learn each agent's
contribution by analyzing the causal relationship of their individual rewards,
ensuring accurate and interpretable credit assignment. Additionally, the
modularity of our approach allows it to seamlessly integrate with various
offline MARL methods. Theoretically, we proved that under the setting of the
offline dataset, the underlying causal structure and the function for
generating the individual rewards of agents are identifiable, which laid the
foundation for the correctness of our modeling. Experimentally, we tested MACCA
in two environments, including discrete and continuous action settings. The
results show that MACCA outperforms SOTA methods and improves performance upon
their backbones.
- Abstract(参考訳): オフラインマルチエージェント強化学習(MARL)は、オンラインインタラクションが非現実的またはリスクのあるシナリオで有用である。
MARLの独立学習は柔軟性とスケーラビリティを提供するが、オフライン設定で個々のエージェントにクレジットを正確に割り当てることは、部分的な可観測性と創発的な振る舞いによる課題を引き起こす。
オンラインのクレジット代入メソッドを直接オフラインに転送すると、リアルタイムフィードバックの欠如と複雑なエージェントのインタラクションにより、最適な結果が得られる。
我々のアプローチであるMACCAは、生成過程を動的ベイズネットワークとして特徴づけ、環境変数、状態、行動、報酬の関係を捉える。
このモデルをオフラインデータ上で推定すると、MACCAは個々の報酬の因果関係を分析し、正確かつ解釈可能なクレジット割り当てを確実にすることで、各エージェントの貢献を学習することができる。
さらに、このアプローチのモジュラリティにより、様々なオフラインMARLメソッドとシームレスに統合できます。
理論的には、オフラインデータセットの設定の下では、基礎となる因果構造とエージェントの個々の報酬を生成する関数が識別可能であることが証明され、モデリングの正確性の基礎となった。
実験では,離散的および連続的な動作設定を含む2つの環境でMACCAを試験した。
その結果,MACCAはSOTA法より優れ,背骨の性能が向上した。
関連論文リスト
- MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。
動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。
実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。
解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。
本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T14:51:29Z) - AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline
Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。
これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。
本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文 参考訳(メタデータ) (2023-11-03T18:56:48Z) - Offline Multi-Agent Reinforcement Learning with Coupled Value
Factorization [2.66512000865131]
OMACは結合値因数分解を伴う新しいオフラインマルチエージェントRLアルゴリズムである。
OMACは局所状態値関数でサンプル内学習を行い、局所レベルで最大Q演算を暗黙的に行う。
我々は、最先端のオフラインマルチエージェントRL法よりも優れたOMAC性能を示す。
論文 参考訳(メタデータ) (2023-06-15T07:08:41Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。
提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文 参考訳(メタデータ) (2021-06-01T07:38:34Z) - PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous
Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。
まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。
この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文 参考訳(メタデータ) (2021-02-13T17:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。