論文の概要: Boosting Continuous Control with Consistency Policy
- arxiv url: http://arxiv.org/abs/2310.06343v2
- Date: Wed, 24 Jan 2024 04:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:19:50.366339
- Title: Boosting Continuous Control with Consistency Policy
- Title(参考訳): 一貫性ポリシーによる継続的制御の促進
- Authors: Yuhui Chen, Haoran Li, Dongbin Zhao
- Abstract要約: CPQL(Consistency Policy with Q-Learning)という新しい時間効率手法を提案する。
逆拡散軌道から所望の方針へのマッピングを確立することにより、時間効率の問題と不正確なガイダンスを同時に解決する。
CPQLは11のオフラインタスクと21のオンラインタスクで新たな最先端パフォーマンスを実現し、Diffusion-QLに比べて推論速度が45倍近く向上している。
- 参考スコア(独自算出の注目度): 14.78980095597872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to its training stability and strong expression, the diffusion model has
attracted considerable attention in offline reinforcement learning. However,
several challenges have also come with it: 1) The demand for a large number of
diffusion steps makes the diffusion-model-based methods time inefficient and
limits their applications in real-time control; 2) How to achieve policy
improvement with accurate guidance for diffusion model-based policy is still an
open problem. Inspired by the consistency model, we propose a novel
time-efficiency method named Consistency Policy with Q-Learning (CPQL), which
derives action from noise by a single step. By establishing a mapping from the
reverse diffusion trajectories to the desired policy, we simultaneously address
the issues of time efficiency and inaccurate guidance when updating diffusion
model-based policy with the learned Q-function. We demonstrate that CPQL can
achieve policy improvement with accurate guidance for offline reinforcement
learning, and can be seamlessly extended for online RL tasks. Experimental
results indicate that CPQL achieves new state-of-the-art performance on 11
offline and 21 online tasks, significantly improving inference speed by nearly
45 times compared to Diffusion-QL. We will release our code later.
- Abstract(参考訳): トレーニング安定性と強い表現のため、拡散モデルはオフライン強化学習において大きな注目を集めている。
しかし、いくつかの課題もあります。
1) 多数の拡散ステップの需要は,拡散モデルに基づく手法を時間非効率にし,その適用をリアルタイム制御で制限する。
2)拡散モデルに基づく政策の正確なガイダンスによる政策改善の方法はまだ未解決の問題である。
一貫性モデルに着想を得て,Q-Learning (CPQL) を用いた一貫性ポリシー (Consistency Policy with Q-Learning) という新しい時間効率手法を提案する。
逆拡散軌跡から所望のポリシーへのマッピングを確立することにより、拡散モデルに基づくポリシーを学習されたq関数で更新する際の時間効率と不正確なガイダンスの問題を同時に解決する。
我々はcpqlがオフライン強化学習のための正確なガイダンスによりポリシー改善を達成し、オンラインrlタスクにシームレスに拡張できることを実証する。
実験の結果、CPQLは11のオフラインタスクと21のオンラインタスクで新しい最先端のパフォーマンスを実現し、Diffusion-QLに比べて推論速度を45倍近く改善している。
コードは後でリリースします。
関連論文リスト
- Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。
本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。
本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文 参考訳(メタデータ) (2023-10-11T08:31:26Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。