Fugu-MT 論文翻訳(概要): Efficient Diffusion Policies for Offline Reinforcement Learning

論文の概要: Efficient Diffusion Policies for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.20081v2
Date: Thu, 26 Oct 2023 12:25:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-28 01:39:18.627716
Title: Efficient Diffusion Policies for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のための効率的な拡散ポリシー
Authors: Bingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan
Abstract要約: Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。 EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
参考スコア（独自算出の注目度）: 85.73757789282212
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp.
Abstract（参考訳）: オフライン強化学習(rl)は、オフラインデータセットから最適なポリシーを学習することを目的としている。最近、Diffsuion-QLは拡散モデルでポリシーを表現することでオフラインRLの性能を大幅に向上させ、その成功はサンプリングのための数百ステップのパラメータ化されたマルコフ連鎖に依存している。しかし、Diffusion-QLには2つの限界がある。 1) 訓練中のマルコフ連鎖全体の前方および後方への移動は計算量的に非効率である。 2)拡散モデルの可能性は難解であるため,最大確率に基づくrlアルゴリズム(例えば,ポリシー勾配法)とは相容れない。そこで本稿では,これらの2つの課題を克服する効率的な拡散政策を提案する。 EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の破損したアクションを概ね構成する。 D4RLベンチマークで広範な実験を行った。その結果, EDPは, ジム移動作業において, 拡散政策訓練時間を5日から5時間に短縮できることがわかった。さらに、EDPは様々なオフラインRLアルゴリズム(TD3、CRR、IQL)と互換性があり、従来の手法よりも大きなマージンでD4RLの新たな最先端を実現する。私たちのコードはhttps://github.com/sail-sg/edpで利用可能です。

関連論文リスト

Flow Q-Learning [61.60383927357656]
簡単なオフライン強化学習(RL)手法であるフローQ-ラーニング(FQL)を提案する。 FQLは、値を最大化するイテレーティブフローポリシを直接指導するのではなく、表現力のあるワンステップポリシをRLでトレーニングする。 FQLは73の州およびピクセルベースのOGBenchタスクとD4RLタスクに強いパフォーマンスをもたらすことを実験的に示す。
論文参考訳（メタデータ） (2025-02-04T18:04:05Z)
Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文参考訳（メタデータ） (2024-12-09T17:28:03Z)
Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。 DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。 DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文参考訳（メタデータ） (2024-05-30T05:04:33Z)
DiffCPS: Diffusion Model based Constrained Policy Search for Offline Reinforcement Learning [11.678012836760967]
制約付きポリシー探索はオフライン強化学習の基本的な問題である。我々は新しいアプローチとして$textbfDiffusion-based Constrained Policy Search$(dubed DiffCPS)を提案する。
論文参考訳（メタデータ） (2023-10-09T01:29:17Z)
Behavior Proximal Policy Optimization [14.701955559885615]
オフライン強化学習(英語: offline reinforcement learning, RL)は、既存の非政治アクター批判的手法が不十分な課題である。オンラインのオンライン政治アルゴリズムは、自然にオフラインのRLを解くことができる。本稿では,制約や正規化を伴わずにオフラインのRLを解消する振舞いプロキシポリシー最適化(BPPO)を提案する。
論文参考訳（メタデータ） (2023-02-22T11:49:12Z)
Dual RL: Unification and New Methods for Reinforcement and Imitation Learning [26.59374102005998]
我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
論文参考訳（メタデータ） (2023-02-16T20:10:06Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。 ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文参考訳（メタデータ） (2022-10-17T16:34:01Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。