Fugu-MT 論文翻訳(概要): Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation

論文の概要: Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation

arxiv url: http://arxiv.org/abs/2405.07503v1
Date: Mon, 13 May 2024 06:53:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-14 14:34:42.613263
Title: Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
Title（参考訳）: 一貫性政策 : 一貫性蒸留による覚醒剤の促進
Authors: Aaditya Prasad, Kevin Lin, Jimmy Wu, Linqi Zhou, Jeannette Bohg,
Abstract要約: 一貫性ポリシ(Consistency Policy)は、バイスモータロボット制御の学習のための拡散ポリシの高速かつ類似した代替手段である。高速な推論速度により、Consistency Policyはリソース制約されたロボットセットアップで低レイテンシの決定を可能にする。
参考スコア（独自算出の注目度）: 31.534668378308822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many robotic systems, such as mobile manipulators or quadrotors, cannot be equipped with high-end GPUs due to space, weight, and power constraints. These constraints prevent these systems from leveraging recent developments in visuomotor policy architectures that require high-end GPUs to achieve fast policy inference. In this paper, we propose Consistency Policy, a faster and similarly powerful alternative to Diffusion Policy for learning visuomotor robot control. By virtue of its fast inference speed, Consistency Policy can enable low latency decision making in resource-constrained robotic setups. A Consistency Policy is distilled from a pretrained Diffusion Policy by enforcing self-consistency along the Diffusion Policy's learned trajectories. We compare Consistency Policy with Diffusion Policy and other related speed-up methods across 6 simulation tasks as well as two real-world tasks where we demonstrate inference on a laptop GPU. For all these tasks, Consistency Policy speeds up inference by an order of magnitude compared to the fastest alternative method and maintains competitive success rates. We also show that the Conistency Policy training procedure is robust to the pretrained Diffusion Policy's quality, a useful result that helps practioners avoid extensive testing of the pretrained model. Key design decisions that enabled this performance are the choice of consistency objective, reduced initial sample variance, and the choice of preset chaining steps. Code and training details will be released publicly.
Abstract（参考訳）: 移動マニピュレータや四極子などの多くのロボットシステムは、空間、重量、電力の制約によりハイエンドのGPUを装備できない。これらの制約により、これらのシステムは、高速なポリシー推論を達成するためにハイエンドGPUを必要とするビジュモータポリシーアーキテクチャの最近の発展を活用することができない。本稿では,移動ロボット制御学習のための拡散ポリシーの高速かつ類似した代替手段である一貫性ポリシーを提案する。高速な推論速度により、Consistency Policyはリソース制約されたロボットセットアップで低レイテンシの決定を可能にする。拡散政策は、拡散政策の学習軌道に沿って自己整合を強制することにより、事前訓練された拡散政策から蒸留される。 6つのシミュレーションタスクにまたがる一貫性ポリシと拡散ポリシ,その他の関連するスピードアップメソッド,およびラップトップGPU上で推論を実世界の2つのタスクを比較した。これらすべてのタスクに対して、一貫性ポリシーは、最速の代替手法と比較して桁違いに推論をスピードアップし、競争的な成功率を維持する。また, 整合性政策の訓練手順は, 事前訓練された拡散政策の品質に対して堅牢であり, 専門家が事前訓練されたモデルの広範なテストを避けるのに役立つことを示す。このパフォーマンスを実現するための重要な設計決定は、一貫性の目標の選択、初期サンプルのばらつきの低減、事前設定された連鎖ステップの選択である。コードとトレーニングの詳細は公開されます。

関連論文リスト

Dynamic Test-Time Compute Scaling in Control Policy: Difficulty-Aware Stochastic Interpolant Policy [40.173458986694584]
Difficulty-Aware Interpolant Policy (DA-SIP) は、ロボットコントローラがタスクの難易度に基づいて、リアルタイムで統合の地平線を適応的に調整できるフレームワークである。 DA-SIPは、最大計算ベースラインに匹敵するタスク成功率を維持しながら、合計時間の2.6-4.4倍の削減を実現している。
論文参考訳（メタデータ） (2025-11-25T22:46:42Z)
Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach [0.6533458718563319]
オフ・ポリティクスの手法は、高価で安全でない現実世界の微調整を最小化するための重要な特徴である、高いサンプル効率を約束する。オン・ポリティクス法は、しばしばより優れた訓練安定性を示すが、これはハザード・センス環境における信頼性の高い収束に不可欠である。この研究は、高精度で安全クリティカルなナビゲーションタスクにおいて、確立されたオン・ポリティクスの信頼性の高い収束は、オフ・ポリティック・アルゴリズムの特異なサンプル効率よりも決定的であることを示す。
論文参考訳（メタデータ） (2025-08-22T21:29:59Z)
One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文参考訳（メタデータ） (2025-07-31T15:51:10Z)
Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Conditioning Matters: Training Diffusion Policies is Faster Than You Think [69.31534053485711]
拡散政策は、視覚言語アクション(VLA)モデルを構築するための主流パラダイムとして登場した。条件拡散政策訓練の基本的な課題は, 生成条件の識別が困難である場合, 訓練対象が限界行動分布をモデル化することである。条件に依存しない条件付きフローマッチングにおけるソース分布を変更するソリューションであるCocosを提案する。
論文参考訳（メタデータ） (2025-05-16T11:14:22Z)
Score and Distribution Matching Policy: Advanced Accelerated Visuomotor Policies via Matched Distillation [29.90613565503628]
視覚的モビリティ学習のためのスコア・アンド・ディストリビューション・マッチング・ポリシー(SDM Policy)を提案する。 SDMポリシーは拡散ベースのポリシーを2段階最適化プロセスを通じて単一ステップジェネレータに変換する。最先端のアクション品質を持ちながら、6倍の推論スピードアップを達成する。
論文参考訳（メタデータ） (2024-12-12T13:22:02Z)
Learning Diffusion Policies from Demonstrations For Compliant Contact-rich Manipulation [5.1245307851495]
本稿では,DIPCOM(Diffusion Policies for Compliant Manipulation)を提案する。生成拡散モデルを活用することで、カルト効果のポーズを予測し、腕の硬さを調整し、必要な力を維持できる政策を開発する。提案手法は,マルチモーダル分布モデリングによる力制御を強化し,コンプライアンス制御における拡散ポリシの統合を改善し,実世界のタスクにおいてその効果を示すことによって,これまでの作業を拡張する。
論文参考訳（メタデータ） (2024-10-25T00:56:15Z)
Diffusion Policy Policy Optimization [37.04382170999901]
拡散ポリシー最適化(DPPO)は、拡散ポリシーを微調整するアルゴリズムフレームワークである。 DPOは、一般的なベンチマークの微調整において、最も優れた全体的なパフォーマンスと効率を達成する。 DPPOはRLファインチューニングと拡散パラメタライゼーションのユニークな相乗効果を生かしていることを示す。
論文参考訳（メタデータ） (2024-09-01T02:47:50Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-25T00:30:58Z)
Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文参考訳（メタデータ） (2023-11-07T15:48:07Z)
Conformal Policy Learning for Sensorimotor Control Under Distribution Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文参考訳（メタデータ） (2023-11-02T17:59:30Z)
Boosting Continuous Control with Consistency Policy [14.78980095597872]
CPQL(Consistency Policy with Q-Learning)という新しい時間効率手法を提案する。逆拡散軌道から所望の方針へのマッピングを確立することにより、時間効率の問題と不正確なガイダンスを同時に解決する。 CPQLは11のオフラインタスクと21のオンラインタスクで新たな最先端パフォーマンスを実現し、Diffusion-QLに比べて推論速度が45倍近く向上している。
論文参考訳（メタデータ） (2023-10-10T06:26:05Z)
Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文参考訳（メタデータ） (2023-02-28T11:58:39Z)
Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文参考訳（メタデータ） (2020-11-16T17:14:59Z)
DDPG++: Striving for Simplicity in Continuous-control Off-Policy Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文参考訳（メタデータ） (2020-06-26T20:21:12Z)
Learning Constrained Adaptive Differentiable Predictive Control Policies With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文参考訳（メタデータ） (2020-04-23T14:24:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。