論文の概要: Steering Your Diffusion Policy with Latent Space Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.15799v1
- Date: Wed, 18 Jun 2025 18:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.796229
- Title: Steering Your Diffusion Policy with Latent Space Reinforcement Learning
- Title(参考訳): 潜時空間強化学習による拡散政策の定式化
- Authors: Andrew Wagenmaker, Mitsuhiko Nakamoto, Yunchu Zhang, Seohong Park, Waleed Yagoub, Anusha Nagabandi, Abhishek Gupta, Sergey Levine,
- Abstract要約: 行動クローニング(BC)が引き起こした政策は通常、行動を改善するために追加の人間のデモを集める必要がある。
強化学習(RL)は、自律的なオンラインポリシーの改善を可能にするという約束を持っているが、通常必要とされる大量のサンプルのために、これを達成できないことが多い。
DSRLはサンプリング効率が高く,BCポリシーへのブラックボックスアクセスしか必要とせず,実世界の自律的政策改善に有効であることを示す。
- 参考スコア(独自算出の注目度): 46.598122553180005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic control policies learned from human demonstrations have achieved impressive results in many real-world applications. However, in scenarios where initial performance is not satisfactory, as is often the case in novel open-world settings, such behavioral cloning (BC)-learned policies typically require collecting additional human demonstrations to further improve their behavior -- an expensive and time-consuming process. In contrast, reinforcement learning (RL) holds the promise of enabling autonomous online policy improvement, but often falls short of achieving this due to the large number of samples it typically requires. In this work we take steps towards enabling fast autonomous adaptation of BC-trained policies via efficient real-world RL. Focusing in particular on diffusion policies -- a state-of-the-art BC methodology -- we propose diffusion steering via reinforcement learning (DSRL): adapting the BC policy by running RL over its latent-noise space. We show that DSRL is highly sample efficient, requires only black-box access to the BC policy, and enables effective real-world autonomous policy improvement. Furthermore, DSRL avoids many of the challenges associated with finetuning diffusion policies, obviating the need to modify the weights of the base policy at all. We demonstrate DSRL on simulated benchmarks, real-world robotic tasks, and for adapting pretrained generalist policies, illustrating its sample efficiency and effective performance at real-world policy improvement.
- Abstract(参考訳): 人間のデモから学んだロボット制御ポリシーは、現実世界の多くのアプリケーションで印象的な成果を上げている。
しかしながら、新しいオープンワールド設定でよく見られるように、初期パフォーマンスが満足できないシナリオでは、このような行動クローン(BC)が引き起こされるポリシーは、通常、行動をさらに改善するために追加の人間によるデモを集める必要がある -- 高価で時間を要するプロセスである。
対照的に、強化学習(RL)は、自律的なオンラインポリシーの改善を可能にするという約束を持っているが、通常必要とされる多くのサンプルのために、これを達成できないことが多い。
本研究は,効率的な実世界のRLを通じて,BCが訓練した政策の迅速な自律的適応を実現するための一歩を踏み出した。
特に、最先端のBC手法である拡散政策に着目して、強化学習(DSRL)による拡散ステアリング(拡散ステアリング)を提案する。
DSRLはサンプリング効率が高く,BCポリシーへのブラックボックスアクセスしか必要とせず,実世界の自律的政策改善に有効であることを示す。
さらに、DSRLは拡散政策の微調整に関わる多くの課題を回避し、基本方針の重みを変更する必要性を排除している。
我々は、シミュレーションベンチマーク、実世界のロボットタスク、事前訓練されたジェネリストポリシーの適応、実世界の政策改善におけるサンプル効率と効果的なパフォーマンスについて、DSRLを実証する。
関連論文リスト
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。
DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。
DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文 参考訳(メタデータ) (2024-09-01T02:47:50Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文 参考訳(メタデータ) (2022-11-23T19:09:37Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。