論文の概要: Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs
- arxiv url: http://arxiv.org/abs/2605.13778v1
- Date: Wed, 13 May 2026 16:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.193975
- Title: Realtime-VLA FLASH: Speculative Inference Framework for Diffusion-based VLAs
- Title(参考訳): リアルタイムVLA FLASH:拡散型VLAの投機的推論フレームワーク
- Authors: Jiahui Niu, Kefan Gu, Yucheng Zhao, Shengwen Liang, Tiancai Wang, Xing Hu, Ying Wang, Huawei Li,
- Abstract要約: Realtime-VLA FLASHは投機的推論フレームワークであり、リプラン中のほとんどの完全な推論コールを排除している。
LIBEROでは、FLASHが58.0msのフル推論ラウンドを7.8msの速さで投機ラウンドに置き換えることで、タスクパフォーマンスをほぼ維持できることが示されている。
また,実世界のコンベアベルトソートにおける実効性を実証し,遅延クリティカルな実施課題に対する実用的影響を強調した。
- 参考スコア(独自算出の注目度): 21.96186978437001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based vision-language-action models (dVLAs) are promising for embodied intelligence but are fundamentally limited in real-time deployment by the high latency of full inference. We propose Realtime-VLA FLASH, a speculative inference framework that eliminates most full inference calls during replanning by introducing a lightweight draft model with parallel verification via the main model's Action Expert and a phase-aware fallback mechanism that reverts to the full inference pipeline when needed. This design enables low-latency, high-frequency replanning without sacrificing reliability. Experiments show that on LIBERO, FLASH largely preserves task performance by replacing many 58.0 ms full-inference rounds with speculative rounds as fast as 7.8 ms, lowering task-level average inference latency to 19.1 ms (3.04x speedup). We additionally demonstrate effectiveness on real-world conveyor-belt sorting, highlighting its practical impact for latency-critical embodied tasks.
- Abstract(参考訳): 拡散に基づく視覚言語アクションモデル(dVLA)は、インテリジェンスを具現化する上で有望であるが、完全な推論のレイテンシの高さによって、リアルタイムデプロイメントにおいて基本的に制限されている。
提案するRealtime-VLA FLASHは,主モデルのアクションエキスパートによる並列検証を備えた軽量なドラフトモデルと,必要時に全推論パイプラインにフォールバックするフェーズアウェアフォールバック機構を導入することで,リプラン中にほとんどの完全な推論コールを除去する投機的推論フレームワークである。
この設計は信頼性を犠牲にすることなく低レイテンシで高周波のリプランニングを可能にする。
LIBEROでは、FLASHは58.0msの全推論ラウンドを7.8msの投機ラウンドに置き換え、タスクレベルの平均推論遅延を19.1ms(3.04倍のスピードアップ)に下げることで、タスク性能をほぼ維持している。
また,実世界のコンベアベルトソートにおける実効性を実証し,遅延クリティカルな実施課題に対する実用的影響を強調した。
関連論文リスト
- A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - FASTER: Rethinking Real-Time Flow VLAs [82.58822112377923]
VLA(Vision-Language-Action)モデルを物理世界に展開するには、リアルタイム実行が不可欠である。
反応時間は、TTFA(Time to First Action)と実行地平線によって決定される一様分布に従っていることを示す。
即時反応のための高速動作サンプリング(FASTER)を提案し,この問題を克服する。
論文 参考訳(メタデータ) (2026-03-19T17:51:37Z) - Empirical Recipes for Efficient and Compact Vision-Language Models [54.92440500651415]
リソース制約のある設定における視覚言語モデル(VLM)は低レイテンシと高スループットを必要とする。
実験的なエンドツーエンドの効率分析と系統的なプロファイル推論を行い、主要なボトルネックを特定します。
精度を保ちながらレイテンシを大幅に低減する,コンパクトなVLMに適した最適化レシピを開発した。
論文 参考訳(メタデータ) (2026-03-17T17:17:40Z) - TIDAL: Temporally Interleaved Diffusion and Action Loop for High-Frequency VLA Control [15.534182843429043]
大規模なVision-Language-Action(VLA)モデルはセマンティックな一般化を提供するが、高い推論遅延に悩まされる。
本稿では,高頻度動作から意味論的推論を分離する階層型フレームワークであるTIDALを提案する。
TIDALは、二重周波数アーキテクチャを用いて拡散ベースのVLAのためのバックボーンに依存しないモジュールとして動作する。
論文 参考訳(メタデータ) (2026-01-21T12:43:11Z) - LatencyPrism: Online Non-intrusive Latency Sculpting for SLO-Guaranteed LLM Inference [1.280379756275477]
我々は,最初のゼロ侵入型マルチプラットフォーム遅延推論システムPrismを提示する。
パイプライン全体のレイテンシの彫刻を分解し、予測異常を積極的に警告し、コードやサービスの再起動を必要とせずにSLOへの準拠を保証することを目的としている。
我々は、根本原因分析に関する広範な実験と調査を行い、Prismの能力を実証する。
論文 参考訳(メタデータ) (2026-01-14T07:46:59Z) - SG-RIFE: Semantic-Guided Real-Time Intermediate Flow Estimation with Diffusion-Competitive Perceptual Quality [0.0]
リアルタイムビデオフレーム補間(VFI)は、長い間、RIFEのようなフローベースの手法によって支配されてきた。
最近の拡散ベースのアプローチは、最先端の知覚品質を実現するが、禁止的なレイテンシに悩まされ、リアルタイムアプリケーションでは現実的ではない。
本稿では,凍結したDINOv3 Vision Transformerのセマンティックガイド型RIFE(SG-RIFE)について述べる。
論文 参考訳(メタデータ) (2025-12-20T06:50:55Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。