論文の概要: CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
- arxiv url: http://arxiv.org/abs/2412.06782v2
- Date: Sat, 21 Dec 2024 09:32:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:51:19.057130
- Title: CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
- Title(参考訳): CARP: 粗大な自己回帰予測によるビジュモータ政策学習
- Authors: Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang,
- Abstract要約: Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
- 参考スコア(独自算出の注目度): 28.761494362934087
- License:
- Abstract: In robotic visuomotor policy learning, diffusion-based models have achieved significant success in improving the accuracy of action trajectory generation compared to traditional autoregressive models. However, they suffer from inefficiency due to multiple denoising steps and limited flexibility from complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive Policy (CARP), a novel paradigm for visuomotor policy learning that redefines the autoregressive action generation process as a coarse-to-fine, next-scale approach. CARP decouples action generation into two stages: first, an action autoencoder learns multi-scale representations of the entire action sequence; then, a GPT-style transformer refines the sequence prediction through a coarse-to-fine autoregressive process. This straightforward and intuitive approach produces highly accurate and smooth actions, matching or even surpassing the performance of diffusion-based policies while maintaining efficiency on par with autoregressive policies. We conduct extensive evaluations across diverse settings, including single-task and multi-task scenarios on state-based and image-based simulation benchmarks, as well as real-world tasks. CARP achieves competitive success rates, with up to a 10% improvement, and delivers 10x faster inference compared to state-of-the-art policies, establishing a high-performance, efficient, and flexible paradigm for action generation in robotic tasks.
- Abstract(参考訳): ロボットビジュモータ政策学習において、拡散に基づくモデルは従来の自己回帰モデルと比較して行動軌跡生成の精度を向上させることに成功している。
しかし、複数のデノベーションステップと複雑な制約による柔軟性の制限により、効率の悪さに悩まされる。
本稿では, 自己回帰行動生成プロセスを再定義する, ビジュモータ政策学習のための新しいパラダイムであるCARP(Coarse-to-Fine AutoRegressive Policy)を, 粗い-to-fine, next-scaleアプローチとして紹介する。
CARPは、アクション生成を2段階に分離する: まず、アクションオートエンコーダは、アクションシーケンス全体のマルチスケール表現を学習し、次に、GPTスタイルのトランスフォーマーは、粗い自己回帰プロセスを通じてシーケンス予測を洗練する。
この直感的で直感的なアプローチは、自己回帰的ポリシーと同等の効率を維持しながら、拡散ベースのポリシーのパフォーマンスを一致または超える、非常に正確でスムーズなアクションを生み出す。
状態ベースおよび画像ベースシミュレーションベンチマークの単一タスクシナリオやマルチタスクシナリオ、実世界のタスクなど、さまざまな設定で広範な評価を行う。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供し、ロボットタスクにおけるアクション生成のための高性能で効率的で柔軟なパラダイムを確立する。
関連論文リスト
- One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z) - Guided Reinforcement Learning for Robust Multi-Contact Loco-Manipulation [12.377289165111028]
強化学習(Reinforcement Learning, RL)は、各タスクに合わせた細かなマルコフ決定プロセス(MDP)設計を必要とすることが多い。
本研究は,マルチコンタクトロコ操作タスクの動作合成と制御に対する体系的アプローチを提案する。
モデルベース軌道から生成されたタスク毎の1つの実演のみを用いて,RLポリシーを訓練するためのタスク非依存のMDPを定義する。
論文 参考訳(メタデータ) (2024-10-17T17:46:27Z) - TOP-ERL: Transformer-based Off-Policy Episodic Reinforcement Learning [27.93845816476777]
本研究はトランスフォーマーに基づくオフポリシック・エピソード強化学習(TOP-ERL)を紹介する。
TOP-ERLは、ERLフレームワークの非政治的更新を可能にする新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-10-12T13:55:26Z) - Dynamic Corrective Self-Distillation for Better Fine-Tuning of
Pretrained Models [0.9217021281095907]
プレトレーニング言語モデル(PLM)の伝達学習過程において発生する攻撃的微調整の問題に対処する。
従来の機械学習における適応的強化法に着想を得て,PLMの微調整を改善するための効果的な動的補正自己蒸留手法を提案する。
本手法は,各イテレーションにおいて,各データポイントに割り当てられた重みを動的に調整することにより,学生モデルが積極的に適応し,自己補正を行う自己蒸留機構を実行することを含む。
論文 参考訳(メタデータ) (2023-12-12T07:26:36Z) - Theoretically Guaranteed Policy Improvement Distilled from Model-Based
Planning [64.10794426777493]
モデルベース強化学習(RL)は、様々な連続制御タスクにおいて顕著な成功を収めた。
近年のプラクティスでは、最適化されたアクションシーケンスをトレーニングフェーズ中にRLポリシーに蒸留する傾向にある。
我々は,モデルに基づく計画から政策への蒸留アプローチを開発する。
論文 参考訳(メタデータ) (2023-07-24T16:52:31Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Improving Non-autoregressive Generation with Mixup Training [51.61038444990301]
本稿では,事前学習したトランスモデルに基づく非自己回帰生成モデルを提案する。
我々はMIxソースと擬似ターゲットという,シンプルで効果的な反復訓練手法を提案する。
質問生成,要約,パラフレーズ生成を含む3つの世代ベンチマーク実験により,提案手法が新たな最先端結果を実現することを示す。
論文 参考訳(メタデータ) (2021-10-21T13:04:21Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。