論文の概要: Beyond Conservatism: Diffusion Policies in Offline Multi-agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.01472v1
- Date: Tue, 4 Jul 2023 04:40:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 18:16:20.156761
- Title: Beyond Conservatism: Diffusion Policies in Offline Multi-agent
Reinforcement Learning
- Title(参考訳): beyond conservatism: オフラインマルチエージェント強化学習における拡散ポリシー
- Authors: Zhuoran Li, Ling Pan and Longbo Huang
- Abstract要約: オフラインマルチエージェント強化学習(MARL)のための新しい拡散オフラインマルチエージェントモデル(DOM2)を提案する。
DOM2は、拡散に基づくポリシー表現性と多様性を強化する。
既存のアルゴリズムに比べて20ドル以上のデータで最先端のパフォーマンスを実現することができる。
- 参考スコア(独自算出の注目度): 29.31031504054288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel Diffusion Offline Multi-agent Model (DOM2) for offline
Multi-Agent Reinforcement Learning (MARL). Different from existing algorithms
that rely mainly on conservatism in policy design, DOM2 enhances policy
expressiveness and diversity based on diffusion. Specifically, we incorporate a
diffusion model into the policy network and propose a trajectory-based
data-augmentation scheme in training. These key ingredients make our algorithm
more robust to environment changes and achieve significant improvements in
performance, generalization and data-efficiency. Our extensive experimental
results demonstrate that DOM2 outperforms existing state-of-the-art methods in
multi-agent particle and multi-agent MuJoCo environments, and generalizes
significantly better in shifted environments thanks to its high expressiveness
and diversity. Furthermore, DOM2 shows superior data efficiency and can achieve
state-of-the-art performance with $20+$ times less data compared to existing
algorithms.
- Abstract(参考訳): 本稿では,オフラインマルチエージェント強化学習(marl)のための拡散型オフラインマルチエージェントモデル(dom2)を提案する。
政策設計における保守主義に主に依存する既存のアルゴリズムとは異なり、dom2はポリシー表現力と拡散に基づく多様性を高める。
具体的には,ポリシーネットワークに拡散モデルを導入し,訓練における軌道に基づくデータ提供方式を提案する。
これらの重要な要素により、我々のアルゴリズムは環境変化に対してより堅牢になり、性能、一般化、データ効率が大幅に向上した。
実験の結果,DOM2はマルチエージェント粒子およびマルチエージェント MuJoCo 環境において既存の最先端手法よりも優れており,その表現性や多様性により,シフト環境において大幅に向上していることがわかった。
さらに、DOM2はデータ効率が優れ、既存のアルゴリズムに比べて20ドル以上のデータで最先端のパフォーマンスを達成することができる。
関連論文リスト
- FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。
本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。
本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文 参考訳(メタデータ) (2024-10-21T10:57:45Z) - Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。
RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - Efficient Domain Coverage for Vehicles with Second-Order Dynamics via
Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。
提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文 参考訳(メタデータ) (2022-11-11T01:59:12Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。