論文の概要: Diffusion Policies creating a Trust Region for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.19690v3
- Date: Thu, 31 Oct 2024 18:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:33:05.265683
- Title: Diffusion Policies creating a Trust Region for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための信頼領域を作成する拡散政策
- Authors: Tianyu Chen, Zhendong Wang, Mingyuan Zhou,
- Abstract要約: 本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
- 参考スコア(独自算出の注目度): 66.17291150498276
- License:
- Abstract: Offline reinforcement learning (RL) leverages pre-collected datasets to train optimal policies. Diffusion Q-Learning (DQL), introducing diffusion models as a powerful and expressive policy class, significantly boosts the performance of offline RL. However, its reliance on iterative denoising sampling to generate actions slows down both training and inference. While several recent attempts have tried to accelerate diffusion-QL, the improvement in training and/or inference speed often results in degraded performance. In this paper, we introduce a dual policy approach, Diffusion Trusted Q-Learning (DTQL), which comprises a diffusion policy for pure behavior cloning and a practical one-step policy. We bridge the two polices by a newly introduced diffusion trust region loss. The diffusion policy maintains expressiveness, while the trust region loss directs the one-step policy to explore freely and seek modes within the region defined by the diffusion policy. DTQL eliminates the need for iterative denoising sampling during both training and inference, making it remarkably computationally efficient. We evaluate its effectiveness and algorithmic characteristics against popular Kullback--Leibler divergence-based distillation methods in 2D bandit scenarios and gym tasks. We then show that DTQL could not only outperform other methods on the majority of the D4RL benchmark tasks but also demonstrate efficiency in training and inference speeds. The PyTorch implementation is available at https://github.com/TianyuCodings/Diffusion_Trusted_Q_Learning.
- Abstract(参考訳): オフライン強化学習(RL)は、コンパイル済みデータセットを活用して最適なポリシをトレーニングする。
Diffusion Q-Learning (DQL)は、拡散モデルを強力で表現力豊かなポリシークラスとして導入し、オフラインRLの性能を大幅に向上させる。
しかし、行動を生成するための反復的偏執サンプリングに依存しているため、トレーニングと推論の両方が遅くなる。
拡散-QLを加速しようとする最近の試みはいくつかあるが、トレーニングおよび/または推論速度の改善は、しばしば性能の低下をもたらす。
本稿では,Diffusion Trusted Q-Learning (DTQL, Diffusion Trusted Q-Learning) という2つのポリシーアプローチを導入する。
我々は新たに導入された拡散信頼領域の喪失によって2つの警察を橋渡しする。
拡散政策は表現性を維持し、信頼領域の損失は1段階の政策を自由に探索し、拡散政策で定義された領域内でモードを求めるよう指示する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
我々は,2次元バンディットシナリオとジムタスクにおけるKulback-Leibler分散蒸留法の有効性とアルゴリズム特性について検討した。
次に、DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も証明できることを示した。
PyTorchの実装はhttps://github.com/TianyuCodings/Diffusion_Trusted_Q_Learningで公開されている。
関連論文リスト
- Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning [13.163511229897667]
オフライン強化学習(RL)では、価値関数の過大評価を防ぐために、配布外動作を管理する必要がある。
拡散雑音回帰問題としてクルバック・リブラー (KL) 制約ポリシーの繰り返しを定式化する拡散アクタ・クリティカル (DAC) を提案する。
提案手法はD4RLベンチマークで評価され,ほぼすべての環境において最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-05-31T00:41:04Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Boosting Continuous Control with Consistency Policy [14.78980095597872]
CPQL(Consistency Policy with Q-Learning)という新しい時間効率手法を提案する。
逆拡散軌道から所望の方針へのマッピングを確立することにより、時間効率の問題と不正確なガイダンスを同時に解決する。
CPQLは11のオフラインタスクと21のオンラインタスクで新たな最先端パフォーマンスを実現し、Diffusion-QLに比べて推論速度が45倍近く向上している。
論文 参考訳(メタデータ) (2023-10-10T06:26:05Z) - Learning to Reach Goals via Diffusion [16.344212996721346]
本稿では,拡散モデルに基づく目標条件強化学習の新たな視点について述べる。
次に、スコア関数に類似したこれらの偏差を逆転させるために、目標条件付きポリシーを学ぶ。
Merlinと呼ばれるこのアプローチは、別の値関数を学ぶことなく、任意の初期状態から特定の目標に到達することができます。
論文 参考訳(メタデータ) (2023-10-04T00:47:02Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。