Fugu-MT 論文翻訳(概要): One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation

論文の概要: One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation

arxiv url: http://arxiv.org/abs/2410.21257v1
Date: Mon, 28 Oct 2024 17:54:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.433677
Title: One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation
Title（参考訳）: 一段階拡散政策:拡散蒸留による高速振動子政策
Authors: Zhendong Wang, Zhaoshuo Li, Ajay Mandlekar, Zhenjia Xu, Jiaojiao Fan, Yashraj Narang, Linxi Fan, Yuke Zhu, Yogesh Balaji, Mingyuan Zhou, Ming-Yu Liu, Yu Zeng,
Abstract要約: OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。 OneDPはロボット制御タスクの応答時間を著しく短縮する。
参考スコア（独自算出の注目度）: 80.71541671907426
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models, praised for their success in generative tasks, are increasingly being applied to robotics, demonstrating exceptional performance in behavior cloning. However, their slow generation process stemming from iterative denoising steps poses a challenge for real-time applications in resource-constrained robotics setups and dynamically changing environments. In this paper, we introduce the One-Step Diffusion Policy (OneDP), a novel approach that distills knowledge from pre-trained diffusion policies into a single-step action generator, significantly accelerating response times for robotic control tasks. We ensure the distilled generator closely aligns with the original policy distribution by minimizing the Kullback-Leibler (KL) divergence along the diffusion chain, requiring only $2\%$-$10\%$ additional pre-training cost for convergence. We evaluated OneDP on 6 challenging simulation tasks as well as 4 self-designed real-world tasks using the Franka robot. The results demonstrate that OneDP not only achieves state-of-the-art success rates but also delivers an order-of-magnitude improvement in inference speed, boosting action prediction frequency from 1.5 Hz to 62 Hz, establishing its potential for dynamic and computationally constrained robotic applications. We share the project page at https://research.nvidia.com/labs/dir/onedp/.
Abstract（参考訳）: ジェネレーティブ・タスクの成功を称賛された拡散モデルは、ロボット工学にますます応用され、行動クローニングにおける例外的なパフォーマンスを示している。しかし、反復的なデノベーションステップから生じるその遅い生成プロセスは、リソース制約されたロボットのセットアップや動的に変化する環境において、リアルタイムな応用に課題を生じさせる。本稿では,1段階拡散政策(One-Step Diffusion Policy, OneDP)を提案する。これは,事前学習した拡散政策からの知識を単一ステップのアクションジェネレータに抽出し,ロボット制御タスクの応答時間を著しく短縮する手法である。蒸留した生成物は拡散鎖に沿ったクルバック・リーブラー(KL)の発散を最小限に抑え、コンバージェンスのための追加事前学習コストをわずか2\%$-10\%で抑えることで、元の政策分布と密接に整合する。我々は,Frankaロボットを用いて,OneDPを6つの課題シミュレーションタスクと4つの自己設計現実タスクで評価した。その結果、OneDPは最先端の成功率だけでなく、推論速度のオーダー・オブ・マグニチュード向上を実現し、動作予測周波数を1.5Hzから62Hzに向上させ、動的で計算的に制約されたロボットアプリケーションの可能性を確立した。プロジェクトページはhttps://research.nvidia.com/labs/dir/onedp/で公開しています。

関連論文リスト

Closed-Loop Action Chunks with Dynamic Corrections for Training-Free Diffusion Policy [52.106797722292896]
我々は,チャンクベースのアクション生成とリアルタイム修正を統合した動的クローズドループ拡散ポリシーフレームワークDCDPを提案する。動的PushTシミュレーションでは、DCDPは5%の計算しか必要とせず、再トレーニングなしに適応性を19%改善する。
論文参考訳（メタデータ） (2026-03-02T15:04:18Z)
Mean-Flow based One-Step Vision-Language-Action [15.497933767026568]
FlowMatchingベースのVision-Language-Action(VLA)フレームワークは、高周波アクションチャンクを生成する上で、顕著なアドバンテージを示している。それらは、本質的に反復的なサンプリング要件とアーキテクチャ上の制限から生じる、世代遅延の延長によって制約される。本稿では,アクション生成プロセスにおけるノイズによる問題を解消する,平均フローに基づくワンステップVLA手法を提案する。
論文参考訳（メタデータ） (2026-03-02T05:30:30Z)
Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。 GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。 LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文参考訳（メタデータ） (2026-02-22T15:39:34Z)
PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。 PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。 7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文参考訳（メタデータ） (2026-02-02T17:57:37Z)
One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文参考訳（メタデータ） (2025-11-17T06:34:17Z)
Real-Time Iteration Scheme for Diffusion Policy [23.124189676943757]
本稿では,RTI(Real-Time Iteration)スキームにインスパイアされた新しい手法を導入し,推論を高速化する。本稿では,ロボット操作における把握などの離散的な動作を効果的に扱うためのスケーリング手法を提案する。提案方式は蒸留や政策の再設計を必要とせず,実行時の計算コストを大幅に削減する。
論文参考訳（メタデータ） (2025-08-07T13:49:00Z)
FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency [34.81668269819768]
本稿では,ロボット操作における時間情報を活用するFreqPolicyを提案する。 FreqPolicyは最初、フローベースのビジュモータポリシーに周波数一貫性の制約を課す。推論周波数93.5Hzの実世界のロボットシナリオにおいて,効率と有効性を示す。
論文参考訳（メタデータ） (2025-06-10T14:12:53Z)
Self Forcing: Bridging the Train-Test Gap in Autoregressive Video Diffusion [70.4360995984905]
本稿では,自己回帰ビデオ拡散モデルのための新しい訓練パラダイムであるSelf Forcingを紹介する。露光バイアスの長年の問題に対処し、地道的な文脈で訓練されたモデルは、自身の不完全な出力で条件付けられたシーケンスを生成する必要がある。
論文参考訳（メタデータ） (2025-06-09T17:59:55Z)
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。 VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文参考訳（メタデータ） (2025-05-24T14:42:51Z)
FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。 FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文参考訳（メタデータ） (2025-01-16T18:57:04Z)
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。 CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文参考訳（メタデータ） (2024-12-09T18:59:18Z)
Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文参考訳（メタデータ） (2024-10-21T12:43:54Z)
PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。 PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文参考訳（メタデータ） (2024-10-14T11:30:18Z)
Bayesian-Optimized One-Step Diffusion Model with Knowledge Distillation for Real-Time 3D Human Motion Prediction [2.402745776249116]
本稿では,知識蒸留とベイズ最適化を用いた1段階多層パーセプトロン(MLP)拡散モデルによる動き予測のトレーニングを提案する。提案モデルでは,予測速度を大幅に向上し,性能の劣化を伴わないリアルタイム予測を実現している。
論文参考訳（メタデータ） (2024-09-19T04:36:40Z)
HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers [12.373320641721344]
大型ビジョンランゲージ・アクション(VLA)モデルは、その印象的な一般化能力のためにロボット制御において有望であることが示されている。数十億のパラメータを持つVLMバックエンドへの依存は、高い計算コストと遅延推定につながる。本稿では,柔軟な周波数・性能トレードオフを実現する階層型ロボットトランスフォーマフレームワークであるHiRTを提案する。
論文参考訳（メタデータ） (2024-09-12T09:18:09Z)
ManiCM: Real-time 3D Diffusion Policy via Consistency Model for Robotic Manipulation [16.272352213590313]
拡散モデルは自然画像から運動軌道への複雑な分布を生成するのに有効であることが確認されている。近年の手法では3次元ロボット操作作業において顕著な性能を示すが、複数のデノナイジングステップにより実行時の非効率が悪化している。拡散過程に一貫性の制約を課すリアルタイムロボット操作モデルManiCMを提案する。
論文参考訳（メタデータ） (2024-06-03T17:59:23Z)
Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation [61.03530321578825]
Score Identity Distillation (SiD) は、事前学習した拡散モデルの生成能力を1ステップ生成器に蒸留する革新的なデータフリー手法である。 SiDは、蒸留中のFr'echet開始距離(FID)を指数的に高速に減少させるだけでなく、元の教師拡散モデルのFID性能に近づいたり、超えたりする。
論文参考訳（メタデータ） (2024-04-05T12:30:19Z)
One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。 GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-12T07:28:40Z)
Learning Bipedal Walking for Humanoids with Current Feedback [5.429166905724048]
アクチュエータレベルでの不正確なトルクトラッキングから生じるヒューマノイドロボットのシム2リアルギャップ問題を克服するためのアプローチを提案する。提案手法は、実際のHRP-5Pヒューマノイドロボットに展開して二足歩行を実現するシミュレーションにおいて、一貫したエンドツーエンドのポリシーをトレーニングする。
論文参考訳（メタデータ） (2023-03-07T08:16:46Z)
Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文参考訳（メタデータ） (2022-11-09T10:28:40Z)
A Self-Paced Mixed Distillation Method for Non-Autoregressive Generation [135.84684279852098]
非自己回帰(NAR)モデルは、様々な言語生成タスクにおけるオート回帰(AR)モデルの性能が著しく低い。 NARモデルの中で、BANGは英語未ラベルの原文コーパス上で最初の大規模事前学習モデルである。そこで本研究では,BANGの生成品質をさらに向上させる,自己ペースト混合蒸留法を提案する。
論文参考訳（メタデータ） (2022-05-23T09:54:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。