論文の概要: One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies
- arxiv url: http://arxiv.org/abs/2603.12480v1
- Date: Thu, 12 Mar 2026 21:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.780965
- Title: One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies
- Title(参考訳): ワンステップフロー政策:高速振動子政策のための自己蒸留
- Authors: Shaolong Li, Lichao Sun, Yongchao Chen,
- Abstract要約: ワンステップフローポリシー (One-Step Flow Policy, OFP) は、教師の訓練を受けずに高忠実でシングルステップのアクション生成を行うための自己蒸留フレームワークである。
56の多様なシミュレートされた操作タスクに対する評価は、一段階のOFPが最先端の結果を達成することを示す。
- 参考スコア(独自算出の注目度): 18.743330791557522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative flow and diffusion models provide the continuous, multimodal action distributions needed for high-precision robotic policies. However, their reliance on iterative sampling introduces severe inference latency, degrading control frequency and harming performance in time-sensitive manipulation. To address this problem, we propose the One-Step Flow Policy (OFP), a from-scratch self-distillation framework for high-fidelity, single-step action generation without a pre-trained teacher. OFP unifies a self-consistency loss to enforce coherent transport across time intervals, and a self-guided regularization to sharpen predictions toward high-density expert modes. In addition, a warm-start mechanism leverages temporal action correlations to minimize the generative transport distance. Evaluations across 56 diverse simulated manipulation tasks demonstrate that a one-step OFP achieves state-of-the-art results, outperforming 100-step diffusion and flow policies while accelerating action generation by over $100\times$. We further integrate OFP into the $π_{0.5}$ model on RoboTwin 2.0, where one-step OFP surpasses the original 10-step policy. These results establish OFP as a practical, scalable solution for highly accurate and low-latency robot control.
- Abstract(参考訳): 生成フローと拡散モデルは、高精度なロボットポリシーに必要な連続的、多モーダルな行動分布を提供する。
しかし、反復サンプリングへの依存は、重度の推論遅延、制御周波数の劣化、時間に敏感な操作における性能の低下をもたらす。
この問題に対処するために,教師の訓練を受けずに,高忠実でシングルステップのアクション生成を行うための自己蒸留フレームワークであるOne-Step Flow Policy (OFP)を提案する。
OFPは、時間間隔のコヒーレントな輸送を強制するための自己整合性損失と、高密度の専門家モードに対する予測を鋭くするための自己誘導正規化を統一する。
さらに、ウォームスタート機構は時間的行動相関を利用して、生成輸送距離を最小化する。
56種類のシミュレートされた操作タスクに対する評価では,1ステップのOFPが,100ステップの拡散とフローポリシを上回り,100\times$以上のアクション生成を加速することを示す。
さらに、OFP を RoboTwin 2.0 上の $π_{0.5}$ モデルに統合する。
これらの結果は、高精度で低レイテンシなロボット制御のための実用的でスケーラブルなソリューションとしてOFPを確立している。
関連論文リスト
- Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation [53.750389076941396]
拡散に基づくビジュモータポリシーは反復的認知を通じて多モーダルな動作分布をキャプチャするが、その高い推論遅延はリアルタイムロボット制御を制限する。
Ada3Driftは,専門家のデモモードに対して予測された行動を引き付ける訓練時間ドリフト場を学習する。
Ada3Driftは、拡散ベースの代替よりも10倍の関数評価を必要としながら、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-12T14:36:53Z) - From Flow to One Step: Real-Time Multi-Modal Trajectory Policies via Implicit Maximum Likelihood Estimation-based Distribution Distillation [18.70033095161235]
Indicit Likelihood Estimation (IMLE) を用いて条件付きフローマッチングの専門家を高速な単一ステップの学生に蒸留する枠組みを提案する。
双方向のチャンファー距離は、モードカバレッジと忠実度の両方を促進する設定レベルの目的を提供する。
統合認識エンコーダは、さらに多視点RGB、深度、点雲、プロプレセプションを幾何学的認識表現に統合する。
論文 参考訳(メタデータ) (2026-03-10T09:30:05Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Mean Flow Policy with Instantaneous Velocity Constraint for One-step Action Generation [65.13627721310613]
平均速度ポリシー(MVP)は、平均速度場をモデル化し、最速のワンステップアクション生成を実現するための新しい生成ポリシー関数である。
MVPはRoomimicとOGBenchのいくつかの困難なロボット操作タスクに対して、最先端の成功率を達成する。
論文 参考訳(メタデータ) (2026-02-14T14:44:06Z) - PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。
PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T17:57:37Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - DM1: MeanFlow with Dispersive Regularization for 1-Step Robotic Manipulation [23.382067451764396]
フローベースの生成モデルは、アクションの分布を学習するための有望なソリューションとして現れてきた。
既存のフローベースのポリシーは、表現の崩壊、類似した視覚的表現を区別できないこと、そして正確な操作タスクの失敗に悩まされる。
本稿では,分散正規化をMeanFlowに統合した新しいフローマッチングフレームワークDM1を提案する。
論文 参考訳(メタデータ) (2025-10-09T07:12:20Z) - FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency [34.81668269819768]
本稿では,ロボット操作における時間情報を活用するFreqPolicyを提案する。
FreqPolicyは最初、フローベースのビジュモータポリシーに周波数一貫性の制約を課す。
推論周波数93.5Hzの実世界のロボットシナリオにおいて,効率と有効性を示す。
論文 参考訳(メタデータ) (2025-06-10T14:12:53Z) - CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction [28.761494362934087]
Coarse-to-Fine AutoRegressive Policy (CARP) は、視覚的政策学習のための新しいパラダイムである。
自己回帰行動生成プロセスを再定義し、粗大で、次のスケールのアプローチとする。
CARPは競争の成功率を最大10%改善し、最先端のポリシーに比べて10倍高速な推論を提供する。
論文 参考訳(メタデータ) (2024-12-09T18:59:18Z) - One-Step Diffusion Policy: Fast Visuomotor Policies via Diffusion Distillation [80.71541671907426]
OneStep Diffusion Policy (OneDP)は、事前訓練された拡散政策から知識を単一ステップのアクションジェネレータに蒸留する新しいアプローチである。
OneDPはロボット制御タスクの応答時間を著しく短縮する。
論文 参考訳(メタデータ) (2024-10-28T17:54:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。