論文の概要: FASTER: Rethinking Real-Time Flow VLAs
- arxiv url: http://arxiv.org/abs/2603.19199v1
- Date: Thu, 19 Mar 2026 17:51:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.312182
- Title: FASTER: Rethinking Real-Time Flow VLAs
- Title(参考訳): FASTER: リアルタイムフローVLAを再考
- Authors: Yuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao,
- Abstract要約: VLA(Vision-Language-Action)モデルを物理世界に展開するには、リアルタイム実行が不可欠である。
反応時間は、TTFA(Time to First Action)と実行地平線によって決定される一様分布に従っていることを示す。
即時反応のための高速動作サンプリング(FASTER)を提案し,この問題を克服する。
- 参考スコア(独自算出の注目度): 82.58822112377923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time execution is crucial for deploying Vision-Language-Action (VLA) models in the physical world. Existing asynchronous inference methods primarily optimize trajectory smoothness, but neglect the critical latency in reacting to environmental changes. By rethinking the notion of reaction in action chunking policies, this paper presents a systematic analysis of the factors governing reaction time. We show that reaction time follows a uniform distribution determined jointly by the Time to First Action (TTFA) and the execution horizon. Moreover, we reveal that the standard practice of applying a constant schedule in flow-based VLAs can be inefficient and forces the system to complete all sampling steps before any movement can start, forming the bottleneck in reaction latency. To overcome this issue, we propose Fast Action Sampling for ImmediaTE Reaction (FASTER). By introducing a Horizon-Aware Schedule, FASTER adaptively prioritizes near-term actions during flow sampling, compressing the denoising of the immediate reaction by tenfold (e.g., in $π_{0.5}$ and X-VLA) into a single step, while preserving the quality of long-horizon trajectory. Coupled with a streaming client-server pipeline, FASTER substantially reduces the effective reaction latency on real robots, especially when deployed on consumer-grade GPUs. Real-world experiments, including a highly dynamic table tennis task, prove that FASTER unlocks unprecedented real-time responsiveness for generalist policies, enabling rapid generation of accurate and smooth trajectories.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルを物理世界に展開するには、リアルタイム実行が不可欠である。
既存の非同期推論手法は主に軌道の滑らかさを最適化するが、環境変化に反応する際の臨界遅延を無視する。
本稿では,アクションチャンキング政策における反応の概念を再考することにより,反応時間を決定する因子の系統的分析を行う。
反応時間は、TTFA(Time to First Action)と実行地平線によって決定される一様分布に従っていることを示す。
さらに,フローベースVLAにおいて一定のスケジュールを適用するという標準的な手法は非効率であり,任意の動作を開始する前にサンプリングステップをすべて完了させ,反応遅延のボトルネックを形成していることを明らかにした。
この問題を克服するために,即時反応のための高速動作サンプリング(FASTER)を提案する。
Horizon-Aware Scheduleを導入することで、FASTERはフローサンプリング中の短期的な動作を適応的に優先順位付けし、ロングホライゾン軌道の質を保ちながら、10倍の反応(eg, in $π_{0.5}$, X-VLA)を1ステップに圧縮する。
ストリーミングクライアントサーバパイプラインと組み合わせることで、FASTERは実際のロボット、特にコンシューマグレードのGPUにデプロイする際の効果的なリアクションレイテンシを大幅に削減する。
高度にダイナミックなテーブルテニスタスクを含む実世界の実験は、FASTERが一般の政策に対して前例のないリアルタイムの応答性を解放し、正確で滑らかな軌道を迅速に生成できることを証明している。
関連論文リスト
- AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - VLA-RAIL: A Real-Time Asynchronous Inference Linker for VLA Models and Robots [5.308743386891208]
VLA(Vision-Language-Action)モデルは、ロボット工学において画期的な進歩を遂げた。
連続したアクションチャンクのキューを融合する戦略は、VLAモデル全体のパフォーマンスに大きな影響を与える。
既存の方法は、ロボットアクションの実行時にジッタ、ストール、あるいは停止に悩まされる。
本稿では,モデル推論とロボット動作制御を非同期に行うように設計された新しいフレームワークであるVLA-RAILを紹介する。
論文 参考訳(メタデータ) (2025-12-31T06:59:42Z) - ActionFlow: A Pipelined Action Acceleration for Vision Language Models on Edge [11.016302257907936]
VLA(Vision-Language-Action)モデルは、ロボットの知覚と制御の統一パラダイムとして登場した。
現在のVLAモデルは、自己回帰復号のメモリバウンド特性のため、エッジデバイス上でわずか3-5Hzで動作する。
本稿では,リソース制約のあるエッジプレート形式に適したシステムレベルの推論フレームワークであるActionFlowを紹介する。
論文 参考訳(メタデータ) (2025-12-23T11:29:03Z) - ImplicitRDP: An End-to-End Visual-Force Diffusion Policy with Structural Slow-Fast Learning [52.86018040861575]
本稿では,単一のネットワークに視覚計画と反応力制御を統合した,一貫したエンドツーエンドの視覚力拡散政策を提案する。
本稿では,非同期な視覚と力のトークンを同時に処理するための因果的注意力を利用した構造的スローフォールストラーニングを紹介する。
コンタクトリッチタスクの実験では、ImplicitRDPは視覚のみのベースラインと階層的なベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2025-12-11T18:59:46Z) - ESPADA: Execution Speedup via Semantics Aware Demonstration Data Downsampling for Imitation Learning [18.435889278351297]
ESPADAは3Dグリップ・オブジェクト関係を持つVLM-LLMパイプラインを使用して、デモをセグメント化するセマンティックなフレームワークである。
1つの注釈付きエピソードからフルデータセットにスケールするために、ESPADAはDynamic Time Warpingを通じてセグメントラベルを伝搬する。
ESPADAは成功率を維持しながら約2倍のスピードアップを実現し、人間のデモと効率的なロボット制御のギャップを狭める。
論文 参考訳(メタデータ) (2025-12-08T10:08:33Z) - FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - Real-Time Execution of Action Chunking Flow Policies [49.1574468325115]
本稿では,アクションインタラクションシステムの非同期実行を可能にする新しい推論時アルゴリズムを提案する。
これは、再トレーニングなしでボックスから実行する拡散またはVLAベースのシステムに適用できる。
その結果、RTCは高速で、性能が高く、推論操作に対して一意に堅牢であることがわかった。
論文 参考訳(メタデータ) (2025-06-09T01:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。