Fugu-MT 論文翻訳(概要): MACCA: Offline Multi-agent Reinforcement Learning with Causal Credit Assignment

論文の概要: MACCA: Offline Multi-agent Reinforcement Learning with Causal Credit Assignment

arxiv url: http://arxiv.org/abs/2312.03644v1
Date: Wed, 6 Dec 2023 17:59:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-07 13:57:23.412271
Title: MACCA: Offline Multi-agent Reinforcement Learning with Causal Credit Assignment
Title（参考訳）: MACCA:Causal Credit Assignmentによるオフラインマルチエージェント強化学習
Authors: Ziyan Wang, Yali Du, Yudi Zhang, Meng Fang, Biwei Huang
Abstract要約: オフラインマルチエージェント強化学習(MARL)は、オンラインインタラクションが非現実的またはリスクのあるシナリオで有用である。本稿では,環境変数,状態,行動,報酬間の関係をキャプチャするMACCAを提案する。 MACCAはSOTA法より優れ,背骨の性能が向上することを示す。
参考スコア（独自算出の注目度）: 34.862786348660094
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Offline Multi-agent Reinforcement Learning (MARL) is valuable in scenarios where online interaction is impractical or risky. While independent learning in MARL offers flexibility and scalability, accurately assigning credit to individual agents in offline settings poses challenges due to partial observability and emergent behavior. Directly transferring the online credit assignment method to offline settings results in suboptimal outcomes due to the absence of real-time feedback and intricate agent interactions. Our approach, MACCA, characterizing the generative process as a Dynamic Bayesian Network, captures relationships between environmental variables, states, actions, and rewards. Estimating this model on offline data, MACCA can learn each agent's contribution by analyzing the causal relationship of their individual rewards, ensuring accurate and interpretable credit assignment. Additionally, the modularity of our approach allows it to seamlessly integrate with various offline MARL methods. Theoretically, we proved that under the setting of the offline dataset, the underlying causal structure and the function for generating the individual rewards of agents are identifiable, which laid the foundation for the correctness of our modeling. Experimentally, we tested MACCA in two environments, including discrete and continuous action settings. The results show that MACCA outperforms SOTA methods and improves performance upon their backbones.
Abstract（参考訳）: オフラインマルチエージェント強化学習(MARL)は、オンラインインタラクションが非現実的またはリスクのあるシナリオで有用である。 MARLの独立学習は柔軟性とスケーラビリティを提供するが、オフライン設定で個々のエージェントにクレジットを正確に割り当てることは、部分的な可観測性と創発的な振る舞いによる課題を引き起こす。オンラインのクレジット代入メソッドを直接オフラインに転送すると、リアルタイムフィードバックの欠如と複雑なエージェントのインタラクションにより、最適な結果が得られる。我々のアプローチであるMACCAは、生成過程を動的ベイズネットワークとして特徴づけ、環境変数、状態、行動、報酬の関係を捉える。このモデルをオフラインデータ上で推定すると、MACCAは個々の報酬の因果関係を分析し、正確かつ解釈可能なクレジット割り当てを確実にすることで、各エージェントの貢献を学習することができる。さらに、このアプローチのモジュラリティにより、様々なオフラインMARLメソッドとシームレスに統合できます。理論的には、オフラインデータセットの設定の下では、基礎となる因果構造とエージェントの個々の報酬を生成する関数が識別可能であることが証明され、モデリングの正確性の基礎となった。実験では,離散的および連続的な動作設定を含む2つの環境でMACCAを試験した。その結果,MACCAはSOTA法より優れ,背骨の性能が向上した。

関連論文リスト

MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。 MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文参考訳（メタデータ） (2025-05-12T17:35:43Z)
Scalable Multi-Agent Offline Reinforcement Learning and the Role of Information [37.18643811339418]
データセット収集とオフライン学習の両方にスケーラブルな新しいルーチンを提案する。エージェントはまず、事前に特定された情報共有ネットワークと一貫性のある多様なデータセットを収集する。提案手法は,FQIの教師あり学習段階における固有誤差を,共有情報と非共有情報との相互情報に限定することを可能にしている。
論文参考訳（メタデータ） (2025-02-16T20:28:42Z)
Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。 Off-CMABは悲観的な報酬推定と解法を組み合わせる。合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文参考訳（メタデータ） (2025-01-31T16:56:18Z)
MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
本稿では,車載メタバースにおける拡張現実(AR)サービスの学習モデルを支援するために,メタバースユーザ(MU)にインセンティブを与える新しい没入型モデルトレーディングフレームワークを提案する。動的ネットワーク条件とプライバシの懸念を考慮して、マルチエージェントマルコフ決定プロセスとしてMSPの報酬決定を定式化する。実験により,提案フレームワークは,実AR関連車両データセット上でのARサービスにおいて,オブジェクト検出と分類のための高価値モデルを効果的に提供できることが示されている。
論文参考訳（メタデータ） (2024-10-25T16:20:46Z)
Coordination Failure in Cooperative Offline MARL [3.623224034411137]
オフラインデータを用いた多エージェント政策勾配における協調的障害と協調行動の役割について検討する。解析ツールとして2プレイヤーゲームを用いることで、BRUDアルゴリズムの単純な失敗モードを実演する。本稿では,共同動作の類似性に基づくデータセットからのサンプルの優先順位付けにより,そのような障害を緩和する手法を提案する。
論文参考訳（メタデータ） (2024-07-01T14:51:29Z)
AlberDICE: Addressing Out-Of-Distribution Joint Actions in Offline Multi-Agent RL via Alternating Stationary Distribution Correction Estimation [65.4532392602682]
オフライン強化学習(RL)の主な課題の1つは、データ収集ポリシーから逸脱した学習ポリシーから生じる分散シフトである。これはしばしば、政策改善中のアウト・オブ・ディストリビューション(OOD)アクションを避けることで対処される。本稿では,定常分布最適化に基づく個別エージェントの集中学習を行うオフラインMARLアルゴリズムAlberDICEを紹介する。
論文参考訳（メタデータ） (2023-11-03T18:56:48Z)
Offline Multi-Agent Reinforcement Learning with Coupled Value Factorization [2.66512000865131]
OMACは結合値因数分解を伴う新しいオフラインマルチエージェントRLアルゴリズムである。 OMACは局所状態値関数でサンプル内学習を行い、局所レベルで最大Q演算を暗黙的に行う。我々は、最先端のオフラインマルチエージェントRL法よりも優れたOMAC性能を示す。
論文参考訳（メタデータ） (2023-06-15T07:08:41Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
A Unified Framework for Alternating Offline Model Training and Policy Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文参考訳（メタデータ） (2022-10-12T04:58:51Z)
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文参考訳（メタデータ） (2022-06-17T15:40:45Z)
Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning [34.856522993714535]
本稿では,エージェントの連立性を考慮した明示的な信用割当手法であるシェープリー・カウンセリング・クレジット・アサインメントを提案する。提案手法は,既存の協調型MARLアルゴリズムを著しく上回り,特に難易度の高いタスクにおいて,最先端のアルゴリズムを実現する。
論文参考訳（メタデータ） (2021-06-01T07:38:34Z)
PerSim: Data-Efficient Offline Reinforcement Learning with Heterogeneous Agents via Personalized Simulators [19.026312915461553]
我々はpersimと呼ばれるモデルベースオフライン強化学習(rl)手法を提案する。まず,各エージェントのパーソナライズされたシミュレータを,政策を学ぶ前に,各エージェントの履歴軌跡をまとめて学習する。この表現は、エージェントごとの遷移ダイナミクスを効果的に学習するための、単純で正規化されたニューラルネットワークアーキテクチャを示唆している。
論文参考訳（メタデータ） (2021-02-13T17:16:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。