Fugu-MT 論文翻訳(概要): Beyond Conservatism: Diffusion Policies in Offline Multi-agent Reinforcement Learning

論文の概要: Beyond Conservatism: Diffusion Policies in Offline Multi-agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2307.01472v1
Date: Tue, 4 Jul 2023 04:40:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 18:16:20.156761
Title: Beyond Conservatism: Diffusion Policies in Offline Multi-agent Reinforcement Learning
Title（参考訳）: beyond conservatism: オフラインマルチエージェント強化学習における拡散ポリシー
Authors: Zhuoran Li, Ling Pan and Longbo Huang
Abstract要約: オフラインマルチエージェント強化学習(MARL)のための新しい拡散オフラインマルチエージェントモデル(DOM2)を提案する。 DOM2は、拡散に基づくポリシー表現性と多様性を強化する。既存のアルゴリズムに比べて20ドル以上のデータで最先端のパフォーマンスを実現することができる。
参考スコア（独自算出の注目度）: 29.31031504054288
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a novel Diffusion Offline Multi-agent Model (DOM2) for offline Multi-Agent Reinforcement Learning (MARL). Different from existing algorithms that rely mainly on conservatism in policy design, DOM2 enhances policy expressiveness and diversity based on diffusion. Specifically, we incorporate a diffusion model into the policy network and propose a trajectory-based data-augmentation scheme in training. These key ingredients make our algorithm more robust to environment changes and achieve significant improvements in performance, generalization and data-efficiency. Our extensive experimental results demonstrate that DOM2 outperforms existing state-of-the-art methods in multi-agent particle and multi-agent MuJoCo environments, and generalizes significantly better in shifted environments thanks to its high expressiveness and diversity. Furthermore, DOM2 shows superior data efficiency and can achieve state-of-the-art performance with $20+$ times less data compared to existing algorithms.
Abstract（参考訳）: 本稿では,オフラインマルチエージェント強化学習(marl)のための拡散型オフラインマルチエージェントモデル(dom2)を提案する。政策設計における保守主義に主に依存する既存のアルゴリズムとは異なり、dom2はポリシー表現力と拡散に基づく多様性を高める。具体的には,ポリシーネットワークに拡散モデルを導入し,訓練における軌道に基づくデータ提供方式を提案する。これらの重要な要素により、我々のアルゴリズムは環境変化に対してより堅牢になり、性能、一般化、データ効率が大幅に向上した。実験の結果,DOM2はマルチエージェント粒子およびマルチエージェント MuJoCo 環境において既存の最先端手法よりも優れており,その表現性や多様性により,シフト環境において大幅に向上していることがわかった。さらに、DOM2はデータ効率が優れ、既存のアルゴリズムに比べて20ドル以上のデータで最先端のパフォーマンスを達成することができる。

関連論文リスト

MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。 MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文参考訳（メタデータ） (2025-06-29T06:41:00Z)
Fast State-Augmented Learning for Wireless Resource Allocation with Dual Variable Regression [83.27791109672927]
本稿では,資源割当ポリシに対する状態拡張グラフニューラルネットワーク(GNN)のパラメトリゼーションが,ユビキタスな二段階的手法の欠点を回避する方法を示す。ラグランジアンによる国家拡張政策の最大化は、オフライントレーニングフェーズ中に学習される。収束結果と指数確率は、双対函数(有限値)最適性ギャップの剰余に縛られることを証明する。
論文参考訳（メタデータ） (2025-06-23T15:20:58Z)
Diffusion Domain Teacher: Diffusion Guided Domain Adaptive Object Detector [0.0]
拡散に基づく生成モデルは、高品質で多様な画像を生成する際、顕著な能力を示している。我々は、ソースドメイン上の凍結拡散モデルを用いて検出器を訓練し、それを教師モデルとして使用し、ラベルのないターゲットドメイン上で擬似ラベルを生成する。本手法は6つのデータセットのベースラインと比較して平均mAP改善率21.2%を達成する。
論文参考訳（メタデータ） (2025-06-04T17:56:46Z)
MisoDICE: Multi-Agent Imitation from Unlabeled Mixed-Quality Demonstrations [5.4482836906033585]
実演が混在する多エージェント環境下でのオフライン模倣学習(IL)について検討した。提案手法は,軌道ラベリングとマルチエージェント模倣学習の2段階からなる。我々はこれらのラベルを利用してロバストなポリシーを学習する新しいマルチエージェントILアルゴリズムであるMisoDICEを紹介する。
論文参考訳（メタデータ） (2025-05-24T08:43:42Z)
Novelty-Guided Data Reuse for Efficient and Diversified Multi-Agent Reinforcement Learning [7.36961322800571]
深層多エージェント強化学習(MARL)は、複雑な協調作業に取り組む可能性を実証している。本稿では,観察の新規性に基づいてポリシー更新を動的に調整する新しいサンプル再利用手法を提案する。 MANGER(Multi-Agent Novelty-GuidEd sample Reuse)と名付けた。
論文参考訳（メタデータ） (2024-12-20T03:09:18Z)
FlickerFusion: Intra-trajectory Domain Generalizing Multi-Agent RL [19.236153474365747]
既存のMARLアプローチは、トレーニングと推論の間に実体の数が一定であるという制限的な仮定に依存することが多い。本稿では、ゼロショット・アウト・オブ・ドメイン(OOD)一般化の下での軌道内動的実体合成の課題に取り組む。本稿では,MARLのバックボーン法に普遍的に適用可能な拡張手法として機能する新しいOOD一般化手法であるFlickerFusionを提案する。
論文参考訳（メタデータ） (2024-10-21T10:57:45Z)
Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。 RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文参考訳（メタデータ） (2024-09-02T19:10:32Z)
Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する既存の二項化法では性能が著しく低下する。画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文参考訳（メタデータ） (2024-06-09T10:30:25Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。 ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文参考訳（メタデータ） (2023-02-23T10:48:09Z)
Learning From Good Trajectories in Offline Multi-Agent Reinforcement Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-28T18:11:26Z)
Efficient Domain Coverage for Vehicles with Second-Order Dynamics via Multi-Agent Reinforcement Learning [9.939081691797858]
本稿では,2次動的エージェントを含む多エージェント効率ドメインカバレッジ問題に対する強化学習(RL)手法を提案する。提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。
論文参考訳（メタデータ） (2022-11-11T01:59:12Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。 OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2021-11-22T13:27:42Z)
Semi-On-Policy Training for Sample Efficient Multi-Agent Policy Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2021-04-27T19:37:01Z)
The Gradient Convergence Bound of Federated Multi-Agent Reinforcement Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討 FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文参考訳（メタデータ） (2021-03-24T07:21:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。