論文の概要: SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation
- arxiv url: http://arxiv.org/abs/2604.05656v1
- Date: Tue, 07 Apr 2026 09:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.755553
- Title: SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation
- Title(参考訳): SnapFlow: プログレッシブ自己蒸留によるフローマッチVLAのためのワンステップアクション生成
- Authors: Wuyang Luan, Junhui Li, Weiguang Zhao, Wenjian Zhang, Tieru Wu, Rui Ma,
- Abstract要約: VLA(Vision-Language-Action)モデルは、最先端の汎用ロボット操作を実現する。
最新のGPUでは、denoisingだけで、エンドツーエンドの推論時間の80%を占めています。
本稿では,複数ステップのデノイングを1つの前方パスに圧縮する,プラグアンドプレイの自己蒸留法であるSnapFlowを提案する。
- 参考スコア(独自算出の注目度): 18.319705014361908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models based on flow matching -- such as pi0, pi0.5, and SmolVLA -- achieve state-of-the-art generalist robotic manipulation, yet their iterative denoising, typically 10 ODE steps, introduces substantial latency: on a modern GPU, denoising alone accounts for 80% of end-to-end inference time. Naively reducing the step count is unreliable, degrading success on most tasks due to the velocity field being uncalibrated for single-step jumps. We present SnapFlow, a plug-and-play self-distillation method that compresses multi-step denoising into a single forward pass (1-NFE) for flow-matching VLAs. SnapFlow mixes standard flow-matching samples with consistency samples whose targets are two-step Euler shortcut velocities computed from the model's own marginal velocity predictions, avoiding the trajectory drift caused by conditional velocities, as we analyze theoretically. A zero-initialized target-time embedding lets the network switch between local velocity estimation and global one-step generation within a single architecture. SnapFlow requires no external teacher, no architecture changes, and trains in ~12h on a single GPU. We validate on two VLA architectures spanning a 6x parameter range, with identical hyperparameters: on pi0.5 (3B) across four LIBERO suites (40 tasks, 400 episodes), SnapFlow achieves 98.75% average success -- matching the 10-step teacher at 97.75% and slightly exceeding it -- with 9.6x denoising speedup and end-to-end latency reduced from 274ms to 83ms; on SmolVLA (500M), it reduces MSE by 8.3% with 3.56x end-to-end acceleration. An action-step sweep on long-horizon tasks reveals that SnapFlow maintains its advantage across execution horizons, achieving 93% at n_act=5 where the baseline reaches only 90%. SnapFlow is orthogonal to layer-distillation and token-pruning approaches, enabling compositional speedups.
- Abstract(参考訳): pi0、pi0.5、SmolVLAなど、フローマッチングに基づくVLA(Vision-Language-Action)モデルは、最先端の汎用的なロボット操作を実現するが、そのイテレーティブなデノナイジング(通常は10 ODEステップ)は、大きなレイテンシをもたらす。
ステップ数を過度に減らすことは信頼できないため、ベロシティフィールドがシングルステップジャンプに適さないため、ほとんどのタスクで成功を低下させる。
本稿では,フローマッチングVLAのためのマルチステップデノイングを1-NFE(1-NFE)に圧縮する,プラグ・アンド・プレイの自己蒸留法であるSnapFlowを提案する。
SnapFlowは、標準フローマッチングサンプルと、モデル自身の限界速度予測から計算された2ステップのEulerショートカット速度を目標とする一貫性サンプルを混合し、理論的に解析したように、条件速度による軌道のドリフトを回避する。
ゼロ初期化ターゲット時間埋め込みにより、ネットワークは1つのアーキテクチャ内で局所速度推定とグローバルなワンステップ生成を切り替えることができる。
SnapFlowは外部の教師もアーキテクチャの変更も必要とせず、単一のGPU上で12時間でトレーニングする。
4つのLIBEROスイート(40タスク400エピソード)にまたがるpi0.5(3B)では、SnapFlowが平均98.75%の平均的な成功(97.75%で、わずかに超える)を達成し、9.6倍のスピードアップとエンドツーエンドのレイテンシを274msから83msに短縮した。
長い水平タスクのアクションステップスイープは、SnapFlowが実行地平線を越えた優位性を維持しており、ベースラインが90%にしか達しないn_act=5で93%を達成していることを示している。
SnapFlowは層蒸留とトークンプレーニングのアプローチに直交しており、コンポジションスピードアップを可能にしている。
関連論文リスト
- EFlow: Fast Few-Step Video Generator Training from Scratch via Efficient Solution Flow [52.73538517981873]
EFlowは、ビデオ拡散トランスフォーマーのための効率的な数ステップのトレーニングフレームワークである。
Gated Local-Global Attentionはトークンドロップ可能なハイブリッドブロックである。
Path-Drop Guidedトレーニングは、高価なターゲットを計算的に安価で弱いパスに置き換える。
論文 参考訳(メタデータ) (2026-03-28T02:06:55Z) - ProbeFlow: Training-Free Adaptive Flow Matching for Vision-Language-Action Models [12.232846303286161]
近年,フローマッチング (FM) アクションヘッドを搭載したビジョン・ランゲージ・アクション (VLA) モデルは,複雑なロボット操作において最先端の性能を実現する。
現在の加速はビジョン・ランゲージ・モデル(VLM)のバックボーンを最適化しているが、アクションヘッドのボトルネックは見落としている。
本稿では,継続的ロボット制御のためのトレーニング不要適応推論フレームワークProbeFlowを提案する。
論文 参考訳(メタデータ) (2026-03-18T15:38:29Z) - FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference [10.34801095627052]
フローマッチングモデルは、画像およびビデオ生成における最先端の忠実度を提供するが、固有のシーケンシャルなデノジングプロセスはそれらを遅くする。
我々は,フローマッチングモデルの生成を高速化するプラグイン・アンド・プレイ適応型推論フレームワークであるFastFlowを提案する。
実験では、高品質な出力を維持しながら2.6倍以上のスピードアップを示す。
論文 参考訳(メタデータ) (2026-02-11T18:21:11Z) - FlowConsist: Make Your Flow Consistent with Real Trajectory [99.22869983378062]
現在の高速フロートレーニングパラダイムには,2つの根本的な問題がある,と我々は主張する。
ランダムにペアリングされたノイズデータサンプルから構築された条件付き速度は、系統的な軌跡ドリフトを導入する。
本研究では,高速フローにおける軌道整合性を実現するためのトレーニングフレームワークであるFlowConsistを提案する。
論文 参考訳(メタデータ) (2026-02-06T03:24:23Z) - One Step Is Enough: Dispersive MeanFlow Policy Optimization [23.382067451764396]
Dispersive MeanFlow Policy Optimization (DMPO)は、一段階生成を可能にする統一されたフレームワークである。
RoboMimic操作とOpenAI Gymロコモーションベンチマークによる実験は、競争力や優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-28T15:34:29Z) - ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge [11.016302257907936]
VLA(Vision-Language-Action)モデルは、ロボットの知覚と制御の統一パラダイムとして登場した。
現在のVLAモデルは、自己回帰復号のメモリバウンド特性のため、エッジデバイス上でわずか3-5Hzで動作する。
本稿では,リソース制約のあるエッジプレート形式に適したシステムレベルの推論フレームワークであるActionFlowを紹介する。
論文 参考訳(メタデータ) (2025-12-23T11:29:03Z) - Understanding, Accelerating, and Improving MeanFlow Training [64.84964628592418]
MeanFlowは、瞬時および平均速度場を共同で学習することで、数ステップで高品質な生成モデリングを実現する。
両速度間の相互作用を分析し, (i) 確立された即時速度は平均速度を学習するための前提条件である。
即時速度の生成を加速する効果的なトレーニングスキームを設計し、その後、短区間平均速度から短区間平均速度に重点を移す。
論文 参考訳(メタデータ) (2025-11-24T12:59:27Z) - MeanFlowSE: one-step generative speech enhancement via conditional mean flow [13.437825847370442]
MeanFlowSEは、軌道に沿った有限区間の平均速度を学習する条件付き生成モデルである。
VoiceBank-DEMANDでは、シングルステップモデルは多ステップベースラインよりも計算コストが大幅に低い強い知性、忠実性、知覚品質を実現する。
論文 参考訳(メタデータ) (2025-09-18T11:24:47Z) - Next Block Prediction: Video Generation via Semi-Autoregressive Modeling [92.60177942930946]
Next-Block Prediction (NBP) は、ビデオ生成のための半自己回帰(セミAR)フレームワークである。
NBPは各ブロック内で双方向の注意を払っており、トークンはより堅牢な空間依存をキャプチャすることができる。
本モデルでは,UCF101では103.3点,K600では25.5点,バニラNTPモデルでは4.4点,FVDスコアは25.5点であった。
論文 参考訳(メタデータ) (2025-02-11T17:57:53Z) - Towards More Accurate Diffusion Model Acceleration with A Timestep Tuner [112.99126045081046]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。
最小コストで特定の区間に対してより正確な積分方向を求めるのに役立つtextbftimestep tunerを提案する。
実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文 参考訳(メタデータ) (2023-10-14T02:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。