論文の概要: StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating
- arxiv url: http://arxiv.org/abs/2602.01100v2
- Date: Sat, 07 Feb 2026 09:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.061589
- Title: StreamVLA: Breaking the Reason-Act Cycle via Completion-State Gating
- Title(参考訳): StreamVLA: 完了状態ゲーティングを通じてReason-Actサイクルを破る
- Authors: Tongqing Chen, Hang Wu, Jiasen Wang, Xiaotao Li, Lu Fang,
- Abstract要約: 長距離ロボット操作は、高レベルの計画と低レベルの制御のギャップを埋める必要がある。
現在のVision-Language-Actionモデルは、しばしばこれらのプロセスを絡めて、各ステップで冗長なマルチモーダル推論を実行する。
本稿では、テキストタスクの分解、視覚目標の想像力、連続的なアクション生成を単一のパラメータ効率のバックボーン内で統合するデュアルシステムアーキテクチャStreamVLAを提案する。
- 参考スコア(独自算出の注目度): 8.031311182554981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon robotic manipulation requires bridging the gap between high-level planning (System 2) and low-level control (System 1). Current Vision-Language-Action (VLA) models often entangle these processes, performing redundant multimodal reasoning at every timestep, which leads to high latency and goal instability. To address this, we present StreamVLA, a dual-system architecture that unifies textual task decomposition, visual goal imagination, and continuous action generation within a single parameter-efficient backbone. We introduce a "Lock-and-Gated" mechanism to intelligently modulate computation: only when a sub-task transition is detected, the model triggers slow thinking to generate a textual instruction and imagines the specific visual completion state, rather than generic future frames. Crucially, this completion state serves as a time-invariant goal anchor, making the policy robust to execution speed variations. During steady execution, these high-level intents are locked to condition a Flow Matching action head, allowing the model to bypass expensive autoregressive decoding for 72% of timesteps. This hierarchical abstraction ensures sub-goal focus while significantly reducing inference latency. Extensive evaluations demonstrate that StreamVLA achieves state-of-the-art performance, with a 98.5% success rate on the LIBERO benchmark and robust recovery in real-world interference scenarios, achieving a 48% reduction in latency compared to full-reasoning baselines.
- Abstract(参考訳): 高次計画(システム2)と低次制御(システム1)のギャップを埋める必要がある。
現行のVision-Language-Action(VLA)モデルは、しばしばこれらのプロセスを絡めて、各ステップで冗長なマルチモーダル推論を実行し、高いレイテンシとゴール不安定をもたらす。
そこで本研究では, テキストタスクの分解, 視覚目標の想像, 連続行動生成を単一のパラメータ効率のバックボーン内で統一する, デュアルシステムアーキテクチャStreamVLAを提案する。
サブタスク遷移が検出されたときのみ、モデルが遅い思考をトリガーしてテキスト命令を生成し、一般的な将来のフレームではなく、特定の視覚的完了状態を想像する。
重要なことに、この完了状態は時間不変のゴールアンカーとして機能し、実行速度の変動に対してロバストなポリシーを実現する。
安定した実行中、これらのハイレベルなインテントはFlow Matchingアクションヘッドを条件にロックされ、高価な自己回帰デコーディングを72%の時間ステップで回避することができる。
この階層的な抽象化は、サブゴールの焦点を確実にすると同時に、推論レイテンシを大幅に削減します。
広範囲な評価により、StreamVLAは、LIBEROベンチマークで98.5%の成功率、実世界の干渉シナリオの堅牢なリカバリを実現し、本格的なベースラインに比べてレイテンシの48%の削減を実現している。
関連論文リスト
- ProbeFlow: Training-Free Adaptive Flow Matching for Vision-Language-Action Models [12.232846303286161]
近年,フローマッチング (FM) アクションヘッドを搭載したビジョン・ランゲージ・アクション (VLA) モデルは,複雑なロボット操作において最先端の性能を実現する。
現在の加速はビジョン・ランゲージ・モデル(VLM)のバックボーンを最適化しているが、アクションヘッドのボトルネックは見落としている。
本稿では,継続的ロボット制御のためのトレーニング不要適応推論フレームワークProbeFlowを提案する。
論文 参考訳(メタデータ) (2026-03-18T15:38:29Z) - Critic in the Loop: A Tri-System VLA Framework for Robust Long-Horizon Manipulation [5.339854280045898]
Critic in the Loopは動的VLM-Expertスケジューリングによって駆動される適応的階層型フレームワークである。
中心となるのは、グローバル推論のためのVLM脳、リアクティブ実行のためのVLA小脳、軽量な視覚的批判を含む、バイオニックなTri-Systemアーキテクチャである。
我々のアーキテクチャは、人間にインスパイアされたルールをシームレスに統合し、無限の再試行ループを直感的に破る。
論文 参考訳(メタデータ) (2026-03-05T13:55:33Z) - Mean-Flow based One-Step Vision-Language-Action [15.497933767026568]
FlowMatchingベースのVision-Language-Action(VLA)フレームワークは、高周波アクションチャンクを生成する上で、顕著なアドバンテージを示している。
それらは、本質的に反復的なサンプリング要件とアーキテクチャ上の制限から生じる、世代遅延の延長によって制約される。
本稿では,アクション生成プロセスにおけるノイズによる問題を解消する,平均フローに基づくワンステップVLA手法を提案する。
論文 参考訳(メタデータ) (2026-03-02T05:30:30Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - AsyncVLA: An Asynchronous VLA for Fast and Robust Navigation on the Edge [49.66156306240961]
高レイテンシは制御ループを壊し、リアルタイムデプロイメントでは安全でない強力なモデルをレンダリングする。
リアクティブ実行からセマンティック推論を分離する非同期制御フレームワークであるAsyncVLAを提案する。
AsyncVLAは、最先端のベースラインよりも40%高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-13T21:31:19Z) - FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。