論文の概要: ProbeFlow: Training-Free Adaptive Flow Matching for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.17850v1
- Date: Wed, 18 Mar 2026 15:38:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.955319
- Title: ProbeFlow: Training-Free Adaptive Flow Matching for Vision-Language-Action Models
- Title(参考訳): ProbeFlow:ビジョン・ランゲージ・アクションモデルのための学習不要な適応フローマッチング
- Authors: Zhou Fang, Jiaqi Wang, Yi Zhou, Qiongfeng Shi,
- Abstract要約: 近年,フローマッチング (FM) アクションヘッドを搭載したビジョン・ランゲージ・アクション (VLA) モデルは,複雑なロボット操作において最先端の性能を実現する。
現在の加速はビジョン・ランゲージ・モデル(VLM)のバックボーンを最適化しているが、アクションヘッドのボトルネックは見落としている。
本稿では,継続的ロボット制御のためのトレーニング不要適応推論フレームワークProbeFlowを提案する。
- 参考スコア(独自算出の注目度): 12.232846303286161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-Language-Action (VLA) models equipped with Flow Matching (FM) action heads achieve state-of-the-art performance in complex robot manipulation. However, the multi-step iterative ODE solving required by FM introduces inference latency that precludes responsive physical control. While current acceleration efforts optimize the Vision-Language Model (VLM) backbone, the action head bottleneck remains overlooked. To address this, we propose ProbeFlow, a training-free adaptive inference framework tai- lored for continuous robotic control. By evaluating geometric trajectory complexity via the cosine similarity between initial and lookahead velocity vectors, ProbeFlow dynamically sched- ules integration steps to prune redundant network evaluations. On the MetaWorld benchmark, it accelerates action decoding by 14.8x (reducing average steps from N = 50 to 2.6) and cuts end-to-end system latency by 2.8x without compromising the manipulation success rate. On the long-horizon LIBERO benchmark, the probe automatically allocates a denser schedule to navigate semantic bottlenecks, effectively resolving the flow solver delay. Real-world physical deployments confirm that ProbeFlow successfully mitigates action decoding latency while ensuring execution stability, offering a highly practical solution for low-latency continuous generative policies.
- Abstract(参考訳): 近年,フローマッチング (FM) アクションヘッドを搭載したビジョン・ランゲージ・アクション (VLA) モデルは,複雑なロボット操作において最先端の性能を実現する。
しかし、FMが要求する複数ステップの繰り返しODE解決は、応答性のある物理制御を妨げる推論遅延を導入している。
現在の加速はビジョン・ランゲージ・モデル(VLM)のバックボーンを最適化しているが、アクションヘッドのボトルネックは見落としている。
そこで本研究では,継続的ロボット制御のためのトレーニング不要適応推論フレームワークであるProbeFlowを提案する。
初期速度ベクトルとルックアヘッド速度ベクトルのコサイン類似性によって幾何学的軌道の複雑さを評価することにより、ProbeFlowは冗長なネットワーク評価を行うために動的にスケッチ・ルズ積分ステップを導出する。
MetaWorldベンチマークでは、14.8倍(N = 50から2.6までの平均ステップを短縮)の動作復号を高速化し、操作成功率を損なうことなくエンドツーエンドシステムのレイテンシを2.8倍に削減する。
ロングホライゾンのLIBEROベンチマークでは、プローブが自動的により密集したスケジュールを割り当て、セマンティックボトルネックをナビゲートし、フローソルバの遅延を効果的に解消する。
現実の物理デプロイメントでは、ProbeFlowが実行の安定性を確保しながら、アクションデコーディングのレイテンシを軽減し、低レイテンシの継続的生成ポリシに対して非常に実用的なソリューションを提供する。
関連論文リスト
- FASTER: Rethinking Real-Time Flow VLAs [82.58822112377923]
VLA(Vision-Language-Action)モデルを物理世界に展開するには、リアルタイム実行が不可欠である。
反応時間は、TTFA(Time to First Action)と実行地平線によって決定される一様分布に従っていることを示す。
即時反応のための高速動作サンプリング(FASTER)を提案し,この問題を克服する。
論文 参考訳(メタデータ) (2026-03-19T17:51:37Z) - Enabling Dynamic Tracking in Vision-Language-Action Models via Time-Discrete and Time-Continuous Velocity Feedforward [11.066720921275648]
視覚言語アクション(VLA)モデルは、ロボット操作に非常に有望である。
厳格な産業用ロボットへの展開は、コンプライアンスと応答性の本質的にのトレードオフのため、依然として困難である。
本稿では、このトレードオフを解決するために、速度フィードフォワード項をVLAポリシーに統合することの重要性を示す。
論文 参考訳(メタデータ) (2026-03-17T07:50:00Z) - Mean-Flow based One-Step Vision-Language-Action [15.497933767026568]
FlowMatchingベースのVision-Language-Action(VLA)フレームワークは、高周波アクションチャンクを生成する上で、顕著なアドバンテージを示している。
それらは、本質的に反復的なサンプリング要件とアーキテクチャ上の制限から生じる、世代遅延の延長によって制約される。
本稿では,アクション生成プロセスにおけるノイズによる問題を解消する,平均フローに基づくワンステップVLA手法を提案する。
論文 参考訳(メタデータ) (2026-03-02T05:30:30Z) - AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - FlowConsist: Make Your Flow Consistent with Real Trajectory [99.22869983378062]
現在の高速フロートレーニングパラダイムには,2つの根本的な問題がある,と我々は主張する。
ランダムにペアリングされたノイズデータサンプルから構築された条件付き速度は、系統的な軌跡ドリフトを導入する。
本研究では,高速フローにおける軌道整合性を実現するためのトレーニングフレームワークであるFlowConsistを提案する。
論文 参考訳(メタデータ) (2026-02-06T03:24:23Z) - ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge [11.016302257907936]
VLA(Vision-Language-Action)モデルは、ロボットの知覚と制御の統一パラダイムとして登場した。
現在のVLAモデルは、自己回帰復号のメモリバウンド特性のため、エッジデバイス上でわずか3-5Hzで動作する。
本稿では,リソース制約のあるエッジプレート形式に適したシステムレベルの推論フレームワークであるActionFlowを紹介する。
論文 参考訳(メタデータ) (2025-12-23T11:29:03Z) - WAM-Flow: Parallel Coarse-to-Fine Motion Planning via Discrete Flow Matching for Autonomous Driving [9.719456684859606]
本稿では,VLAモデルであるWAM-Flowを紹介し,Ego-trajectory Planningをトークン空間上の離散フローマッチングとして利用する。
WAM-Flowは完全に並列で双方向のデノゲーションを実行し、調整可能な計算精度トレードオフによる粗い微細化を可能にする。
これらの結果は、エンド・ツー・エンド・エンドの自律運転に期待できる新しいパラダイムとして離散フローマッチングが確立される。
論文 参考訳(メタデータ) (2025-12-05T19:36:46Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。