論文の概要: Learning to Accelerate Vision-Language-Action Models through Adaptive Visual Token Caching
- arxiv url: http://arxiv.org/abs/2602.00686v1
- Date: Sat, 31 Jan 2026 12:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 05:15:25.020182
- Title: Learning to Accelerate Vision-Language-Action Models through Adaptive Visual Token Caching
- Title(参考訳): 適応型視覚トークンキャッシングによる視覚・言語・アクションモデルの高速化
- Authors: Yujie Wei, Jiahan Fan, Jiyu Guo, Ruichen Zhen, Rui Shao, Xiu Su, Zeke Xie, Shuo Yang,
- Abstract要約: 我々は、学習可能なポリシー最適化問題として推論加速度を再構成する。
本稿では,タスク認識による意思決定プロセスを直接Vision-Language-Actionモデルに統合する新しいフレームワークを提案する。
提案手法は, 平均成功率を同時に向上させながら, 1.76倍のウォールクロック推定速度向上を実現する。
- 参考スコア(独自算出の注目度): 25.295588774254952
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have demonstrated remarkable generalization capabilities in robotic manipulation tasks, yet their substantial computational overhead remains a critical obstacle to real-world deployment. Improving inference efficiency is therefore essential for practical robotic applications. Existing acceleration methods often rely on heuristic or static strategies--such as rule-based token caching or pruning--that are decoupled from task objectives and fail to adapt to dynamic scene changes. In this work, we reformulate inference acceleration as a learnable policy optimization problem and propose a novel framework that integrates a dynamic, task-aware decision-making process directly into the VLA model. At its core are two lightweight, cooperative modules: a Cached Token Selector, which determines which tokens should be reused, and a Cache Ratio Predictor, which controls how many tokens to reuse. Training these modules is non-trivial due to their discrete decisions. We address this by adopting a differentiable relaxation that allows gradient-based end-to-end optimization. Extensive experiments on the LIBERO and SIMPLER benchmarks, as well as real-robot evaluations, show that our method achieves a 1.76x wall-clock inference speedup while simultaneously improving the average success rate by 1.9 percentage points (from 75.0% to 76.9%) on LIBERO and by 5.0 percentage points on real-world tasks, significantly outperforming existing baselines. This work highlights the potential of learning task-aware computational allocation policies, paving the way for VLA models that are both powerful and efficient.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作タスクにおいて顕著な一般化能力を示しているが、その計算オーバーヘッドは現実世界の展開にとって重要な障害である。
したがって、推論効率の向上は、実用的なロボット応用に不可欠である。
既存のアクセラレーションメソッドは、ルールベースのトークンキャッシングやプルーニングなど、しばしばヒューリスティックまたは静的な戦略に依存します。
本研究では,推論の高速化を学習可能なポリシ最適化問題として再定義し,動的タスク対応意思決定プロセスを直接VLAモデルに統合する新しいフレームワークを提案する。
コアとなるのは、どのトークンを再利用すべきかを決定するCached Token Selectorと、どのトークンを再利用するかを制御するCache Ratio Predictorの2つの軽量で協調的なモジュールだ。
これらのモジュールのトレーニングは、決定的な決定のため、簡単ではない。
我々は、勾配に基づくエンドツーエンドの最適化を可能にする、微分可能な緩和を採用することで、この問題に対処する。
LIBERO と SIMPLER のベンチマークおよび実ロボット評価の結果から,本手法は実世界のタスクにおいて平均成功率を1.9ポイント(75.0%から76.9%)、および5.0ポイント(5.0ポイント)で改善し,既存のベースラインを著しく上回った。
この研究は、タスク対応の計算割当ポリシーを学習し、強力かつ効率的なVLAモデルの道を開く可能性を強調している。
関連論文リスト
- TGM-VLA: Task-Guided Mixup for Sampling-Efficient and Robust Robotic Manipulation [42.52624620346963]
本稿では,モデル性能とトレーニング効率の両方を大幅に改善する,新しい包括的枠組みを提案する。
まず,サンプリング戦略の再設計と最適化を行い,メモリ消費を80%削減し,トレーニング速度を5倍に向上させた。
第二に,暗黒物体のあいまいさを解消する単純で効果的なモジュールであるカラー反転投影分岐を用いてモデルを強化する。
論文 参考訳(メタデータ) (2026-02-28T12:16:20Z) - ActionCodec: What Makes for Good Action Tokenizers [106.78093973045526]
VLA(Vision-Language-Action)モデルでは、より優れた命令追従と訓練効率が示されている。
このパラダイムの中心はアクショントークン化であるが、その設計は主に再構築の忠実さに焦点を当てている。
我々は、トレーニング効率とVLA性能の両方を大幅に向上させる高性能なアクショントークンであるtextbfActionCodecを紹介する。
論文 参考訳(メタデータ) (2026-02-17T07:07:15Z) - Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement [27.517125673741486]
VLA(Vision-Language-Action)モデルは、汎用的なロボット制御のための有望なパラダイムとして登場した。
マルチレベル静的および動的トークンに視覚入力をアンタングルするフレームワークであるSD-VLAを提案する。
本稿では,VLAの長期時間依存性モデリング機能をより効果的に評価する新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-03T20:17:47Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models [21.42353501209045]
VLA(Vision-Language-Action)モデルは、エンボディインテリジェンスに対する変換ポテンシャルを示すが、高い計算とメモリ要求によって著しく妨げられる。
本稿では,構造化およびトレーニング不要な推論促進フレームワークであるEfficientVLAを紹介する。
提案手法を標準VLAモデルであるCogACTに適用し,予測速度を1.93倍に向上し,FLOPを28.9%に削減し,SIMPLERベンチマークでは0.6%の成功率の低下に留まった。
論文 参考訳(メタデータ) (2025-06-11T18:34:57Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。