論文の概要: Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- arxiv url: http://arxiv.org/abs/2405.07503v2
- Date: Fri, 28 Jun 2024 21:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:10:11.475197
- Title: Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- Title(参考訳): 一貫性政策 : 一貫性蒸留による覚醒剤の促進
- Authors: Aaditya Prasad, Kevin Lin, Jimmy Wu, Linqi Zhou, Jeannette Bohg,
- Abstract要約: 一貫性ポリシ(Consistency Policy)は、バイスモータロボット制御の学習のための拡散ポリシの高速かつ類似した代替手段である。
高速な推論速度により、Consistency Policyはリソース制約されたロボットセットアップで低レイテンシの決定を可能にする。
このパフォーマンスを実現するための重要な設計決定は、一貫性の目標の選択、初期サンプルのばらつきの低減、事前設定された連鎖ステップの選択である。
- 参考スコア(独自算出の注目度): 31.534668378308822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many robotic systems, such as mobile manipulators or quadrotors, cannot be equipped with high-end GPUs due to space, weight, and power constraints. These constraints prevent these systems from leveraging recent developments in visuomotor policy architectures that require high-end GPUs to achieve fast policy inference. In this paper, we propose Consistency Policy, a faster and similarly powerful alternative to Diffusion Policy for learning visuomotor robot control. By virtue of its fast inference speed, Consistency Policy can enable low latency decision making in resource-constrained robotic setups. A Consistency Policy is distilled from a pretrained Diffusion Policy by enforcing self-consistency along the Diffusion Policy's learned trajectories. We compare Consistency Policy with Diffusion Policy and other related speed-up methods across 6 simulation tasks as well as three real-world tasks where we demonstrate inference on a laptop GPU. For all these tasks, Consistency Policy speeds up inference by an order of magnitude compared to the fastest alternative method and maintains competitive success rates. We also show that the Conistency Policy training procedure is robust to the pretrained Diffusion Policy's quality, a useful result that helps practioners avoid extensive testing of the pretrained model. Key design decisions that enabled this performance are the choice of consistency objective, reduced initial sample variance, and the choice of preset chaining steps.
- Abstract(参考訳): 移動マニピュレータや四極子などの多くのロボットシステムは、空間、重量、電力の制約によりハイエンドのGPUを装備できない。
これらの制約により、これらのシステムは、高速なポリシー推論を達成するためにハイエンドGPUを必要とするビジュモータポリシーアーキテクチャの最近の発展を活用することができない。
本稿では,移動ロボット制御学習のための拡散ポリシーの高速かつ類似した代替手段である一貫性ポリシーを提案する。
高速な推論速度により、Consistency Policyはリソース制約されたロボットセットアップで低レイテンシの決定を可能にする。
拡散政策は、拡散政策の学習軌道に沿って自己整合を強制することにより、事前訓練された拡散政策から蒸留される。
我々は6つのシミュレーションタスク、およびラップトップGPU上で推論を実世界の3つのタスクで、一貫性ポリシーと拡散ポリシーや他の関連するスピードアップ手法を比較した。
これらすべてのタスクに対して、一貫性ポリシーは、最速の代替手法と比較して桁違いに推論をスピードアップし、競争的な成功率を維持する。
また, 整合性政策の訓練手順は, 事前訓練された拡散政策の品質に対して堅牢であり, 専門家が事前訓練されたモデルの広範なテストを避けるのに役立つことを示す。
このパフォーマンスを実現するための重要な設計決定は、一貫性の目標の選択、初期サンプルのばらつきの低減、事前設定された連鎖ステップの選択である。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Boosting Continuous Control with Consistency Policy [14.78980095597872]
CPQL(Consistency Policy with Q-Learning)という新しい時間効率手法を提案する。
逆拡散軌道から所望の方針へのマッピングを確立することにより、時間効率の問題と不正確なガイダンスを同時に解決する。
CPQLは11のオフラインタスクと21のオンラインタスクで新たな最先端パフォーマンスを実現し、Diffusion-QLに比べて推論速度が45倍近く向上している。
論文 参考訳(メタデータ) (2023-10-10T06:26:05Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Safety-Constrained Policy Transfer with Successor Features [19.754549649781644]
本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。
我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。
シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-10T06:06:36Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。