論文の概要: Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement
- arxiv url: http://arxiv.org/abs/2602.03983v1
- Date: Tue, 03 Feb 2026 20:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.261417
- Title: Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement
- Title(参考訳): 静的動的絡み合いによる高能率長水平ビジョン・ランゲージ・アクションモデル
- Authors: Weikang Qiu, Tinglin Huang, Aosong Feng, Rex Ying,
- Abstract要約: VLA(Vision-Language-Action)モデルは、汎用的なロボット制御のための有望なパラダイムとして登場した。
マルチレベル静的および動的トークンに視覚入力をアンタングルするフレームワークであるSD-VLAを提案する。
本稿では,VLAの長期時間依存性モデリング機能をより効果的に評価する新しいベンチマークを提案する。
- 参考スコア(独自算出の注目度): 27.517125673741486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have recently emerged as a promising paradigm for generalist robotic control. Built upon vision-language model (VLM) architectures, VLAs predict actions conditioned on visual observations and language instructions, achieving strong performance and generalization across tasks. However, VLAs face two major challenges: limited long-horizon context and inefficient inference due to the quadratic attention complexity and large parameter counts. Our work is motivated by the observation that much of the visual information in a trajectory remains static across timesteps (e.g., the background). Leveraging this property, we propose SD-VLA, a framework that disentangles visual inputs into multi-level static and dynamic tokens, which enables (1) retaining a single copy of static tokens across frames to significantly reduce context length, and (2) reusing the key-value (KV) cache of static tokens through a lightweight recache gate that updates only when necessary. This design enables efficient multi-frame integration and efficient inference. In addition, we introduce a new benchmark that more effectively evaluates the long-horizon temporal dependency modeling ability of VLAs. Experimental results show that our approach outperforms baselines on this benchmark by 39.8% absolute improvement in success rate, and achieves a 3.9% gain on the SimplerEnv benchmark. Moreover, SD-VLA delivers a 2.26x inference speedup over the base VLA model on the same benchmark, enabling faster and more practical real-world deployment.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは最近、ジェネラリストロボット制御のための有望なパラダイムとして登場した。
視覚言語モデル(VLM)アーキテクチャに基づいて構築されたVLAは、視覚的な観察と言語命令で条件付けられたアクションを予測し、タスク間での強力なパフォーマンスと一般化を実現する。
しかしながら、VLAは2次注意の複雑さと大きなパラメータ数のために、限られた長距離コンテキストと非効率な推論という2つの大きな課題に直面している。
我々の研究は、軌跡内の視覚情報の多くが時間経過(例えば背景)を通して静止しているという観察によって動機付けられている。
この特性を活用して、SD-VLAを提案する。SD-VLAは、視覚的な入力をマルチレベルな静的および動的トークンに切り離すフレームワークで、(1)フレーム間の静的トークンのコピーを1コピー保持することで、コンテキスト長を著しく削減し、(2)軽量のreacheゲートを通じて静的トークンのキー値(KV)キャッシュを再利用する。
この設計により、効率的なマルチフレーム統合と効率的な推論が可能になる。
さらに,VLAの長期時間依存性モデリング機能をより効果的に評価する新しいベンチマークを導入する。
実験の結果,本ベンチマークのベースラインは39.8%向上し,SimplerEnvベンチマークでは3.9%向上した。
さらにSD-VLAは同じベンチマークでベースVLAモデルに対して2.26倍の推論スピードアップを実現し、より高速で実用的な実世界のデプロイを可能にした。
関連論文リスト
- FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。