論文の概要: StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation
- arxiv url: http://arxiv.org/abs/2603.28565v1
- Date: Mon, 30 Mar 2026 15:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.474909
- Title: StreamingVLA: Streaming Vision-Language-Action Model with Action Flow Matching and Adaptive Early Observation
- Title(参考訳): StreamingVLA: アクションフローマッチングと適応的初期観測による視覚・言語・行動モデル
- Authors: Yiran Shi, Dongqi Guo, Tianchen Zhao, Feng Gao, Liangzhi Shi, Chao Yu, ZhiJian Mo, Qihua Xiao, XiaoShuai Peng, Qingmin Liao, Yu Wang,
- Abstract要約: 視覚言語アクション(VLA)モデルは、自然言語による知覚と制御において例外的な性能を示した。
VLAモデルの高い計算コストは、大きな効率上の課題をもたらす。
本稿では,VLAステージ間で非同期並列化が可能なVLAを実現することを提案する。
- 参考スコア(独自算出の注目度): 30.881585159777714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models have demonstrated exceptional performance in natural language-driven perception and control. However, the high computational cost of VLA models poses significant efficiency challenges, particularly for resource-constrained edge platforms in real-world deployments. However, since different stages of VLA (observation, action generation and execution) must proceed sequentially, and wait for the completion of the preceding stage, the system suffers from frequent halting and high latency. To address this, We conduct a systematic analysis to identify the challenges for fast and fluent generation, and propose enabling VLAs with the ability to asynchronously parallelize across VLA stages in a "streaming" manner. First, we eliminate the reliance on action chunking and adopt action flow matching, which learns the trajectory of action flows rather than denoising chunk-wise actions. It overlaps the latency of action generation and execution. Second, we design an action saliency-aware adaptive observation mechanism, thereby overlapping the latency of execution and observation. Without sacrificing performance, StreamingVLA achieves substantial speedup and improves the fluency of execution. It achieves a 2.4 $\times$ latency speedup and reduces execution halting by 6.5 $\times$.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、自然言語による知覚と制御において例外的な性能を示した。
しかしながら、VLAモデルの高い計算コストは、特に実世界の展開においてリソース制約のあるエッジプラットフォームにおいて、大きな効率上の課題をもたらす。
しかしながら、VLAの異なる段階(観測、行動生成、実行)は順次進行し、前段階の完了を待つ必要があるため、システムは頻繁な停止と高いレイテンシに悩まされる。
この問題に対処するため,我々は,高速かつ流動的な生成の課題を特定するための系統解析を行い,VLAのステージ間で非同期並列化が可能なVLAの実現を,ストリーミング方式で提案する。
まず、アクションチャンキングへの依存を排除し、アクションフローマッチングを採用する。
アクション生成と実行のレイテンシが重なる。
第2に,動作の順応性を考慮した適応観察機構を設計し,実行と観測の遅延を重畳する。
パフォーマンスを犠牲にすることなく、StreamingVLAは大幅にスピードアップし、実行頻度を向上させる。
2.4$\times$レイテンシのスピードアップを実現し、実行停止を6.5$\times$に削減する。
関連論文リスト
- Mean-Flow based One-Step Vision-Language-Action [15.497933767026568]
FlowMatchingベースのVision-Language-Action(VLA)フレームワークは、高周波アクションチャンクを生成する上で、顕著なアドバンテージを示している。
それらは、本質的に反復的なサンプリング要件とアーキテクチャ上の制限から生じる、世代遅延の延長によって制約される。
本稿では,アクション生成プロセスにおけるノイズによる問題を解消する,平均フローに基づくワンステップVLA手法を提案する。
論文 参考訳(メタデータ) (2026-03-02T05:30:30Z) - AC^2-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation [21.23747444669735]
VLAモデル(AC2-VLA)に対するアクションコンテキスト対応適応計算を提案する。
AC2-VLAは、タイムステップ間の認識再利用、トークンプルーニング、統一メカニズム内のモデルコンポーネントの選択的な実行を適応的に行う。
ロボット操作ベンチマークの実験では、AC2-VLAはFLOPを29.4%まで減らし、最大1.79倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-27T14:10:39Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。