論文の概要: DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference
- arxiv url: http://arxiv.org/abs/2603.10469v1
- Date: Wed, 11 Mar 2026 06:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.669077
- Title: DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference
- Title(参考訳): DepthCache: ビジョンランゲージ・アクションモデル推論のための深層誘導型トレーニングフリービジュアルトークンマージ
- Authors: Yuquan Li, Lianjie Ma, Han Ding, Lijun Zhu,
- Abstract要約: VLA(Vision-Language-Action)モデルは、一般的なロボット操作を可能にするが、高い推論遅延に悩まされる。
DepthCacheは、ビジュアルトークン圧縮のための構造的事前として奥行きを利用する、トレーニング不要のフレームワークである。
LIBEROベンチマークでは、DepthCacheは最大1.28倍の推論スピードアップを達成する。
- 参考スコア(独自算出の注目度): 5.305950698447464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models enable generalist robotic manipulation but suffer from high inference latency. This bottleneck stems from the massive number of visual tokens processed by large language backbones. Existing methods either prune or merge tokens uniformly, degrading the spatial reasoning essential for robotic control. We present DepthCache, a training-free framework that leverages depth as a structural prior for visual token compression. It partitions observations into depth-based regions and applies spatially differentiated merge ratios, preserving the near-field workspace while compressing the distant background. To exploit temporal redundancy, DepthCache distributes the merging process across consecutive frames, ensuring consistent representations while reducing per-step computation. A motion-adaptive pipeline further optimizes auxiliary view compression based on end-effector dynamics. The framework requires no model modification, generalizing across diverse VLA architectures. On the LIBERO benchmark, DepthCache achieves up to 1.28x inference speedup with less than 1% average success rate degradation across three VLA models (pi_0.5, OpenVLA, GR00T), whereas pruning and merging baselines incur 4--24% degradation at comparable compression. Real-world experiments on a physical manipulator demonstrate that DepthCache enables faster task throughput and more responsive closed-loop control in latency-sensitive scenarios.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、一般的なロボット操作を可能にするが、高い推論遅延に悩まされる。
このボトルネックは、大きな言語バックボーンによって処理される膨大な数の視覚トークンに起因している。
既存の方法では、プルーンまたはマージトークンが均一に行われ、ロボット制御に不可欠な空間的推論が劣化する。
DepthCacheは、ビジュアルトークン圧縮のための構造的事前として奥行きを利用する、トレーニング不要のフレームワークである。
観測を深度に基づく領域に分割し、空間的に区別されたマージ比を適用し、遠くの背景を圧縮しながら近接場ワークスペースを保存する。
時間的冗長性を活用するために、DepthCacheはマージプロセスを連続したフレームに分散し、ステップ単位の計算を削減しながら一貫した表現を保証する。
モーション適応パイプラインは、エンドエフェクタダイナミクスに基づいた補助的なビュー圧縮をさらに最適化する。
このフレームワークはモデル修正を必要とせず、多様なVLAアーキテクチャをまたいで一般化する。
LIBEROベンチマークでは、DepthCacheは3つのVLAモデル(pi_0.5、OpenVLA、GR00T)で平均成功率を1%以下に抑えながら、最大1.28倍の推論スピードアップを達成する。
物理マニピュレータを用いた実世界の実験では、DepthCacheは、レイテンシに敏感なシナリオにおいて、より高速なタスクスループットとより応答性の高いクローズループ制御を実現する。
関連論文リスト
- PackCache: A Training-Free Acceleration Method for Unified Autoregressive Video Generation via Compact KV-Cache [61.57938553036056]
トレーニング不要なKVキャッシュ管理手法であるPackCacheを導入し,KVキャッシュを3つの協調機構でコンパクト化する。
効率の面では、PackCacheは48フレームの長いシーケンスで1.7-2.2倍のエンドツーエンド生成を高速化する。
論文 参考訳(メタデータ) (2026-01-07T19:51:06Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - Sliding Window Attention for Learned Video Compression [67.57073402826292]
本研究は3D Sliding Window Attention (SWA)を導入している。
Bjorntegaard Delta-rate saves to up 18.6% %。
論文 参考訳(メタデータ) (2025-10-04T20:11:43Z) - FastCache: Fast Caching for Diffusion Transformer Through Learnable Linear Approximation [43.83288560196838]
DiT (Diffusion Transformer) は強力な生成モデルであるが、その反復構造と深部変圧器スタックのために計算集約性を維持している。
FastCacheは、DiT推論を高速化する隠れ状態レベルのキャッシュおよび圧縮フレームワークである。
複数のDiT変種にまたがる実証的な評価は、レイテンシとメモリ使用量の大幅な削減を示している。
論文 参考訳(メタデータ) (2025-05-26T05:58:49Z) - dKV-Cache: The Cache for Diffusion Language Models [53.85291644298835]
Diffusion Language Models (DLMs) は自己回帰型言語モデルにとって有望な競合と見なされている。
本稿では,DLMの復調過程に対するKVキャッシュ機構,遅延KVキャッシュを提案する。
我々のアプローチは、異なるトークンが拡散過程を通して異なる表現力学を持つという観察によって動機付けられている。
論文 参考訳(メタデータ) (2025-05-21T17:32:10Z) - VLA-Cache: Efficient Vision-Language-Action Manipulation via Adaptive Token Caching [23.52474883720957]
VLA(Vision-Language-Action)モデルは、視覚知覚と言語命令から直接のアクション生成を可能にする強力なマルチモーダル推論能力を示している。
本稿では,フレーム間の静的な視覚トークンを適応的にキャッシュ・再利用することにより,計算オーバーヘッドを低減する訓練不要な推論高速化手法であるVLA-Cacheを紹介する。
論文 参考訳(メタデータ) (2025-02-04T09:48:14Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。