論文の概要: See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2605.11817v2
- Date: Sun, 17 May 2026 20:26:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.69897
- Title: See What Matters: Differentiable Grid Sample Pruning for Generalizable Vision-Language-Action Model
- Title(参考訳): 一般化可能なビジョン・ランゲージ・アクションモデルのための微分格子サンプルプルーニング
- Authors: Yixu Feng, Zinan Zhao, Yanxiang Ma, Chenghao Xia, Chengbin Du, Yunke Wang, Chang Xu,
- Abstract要約: Differentiable Grid Sampler (GridS) は、Vision-Language-Action(VLA)モデルで視覚トークンのタスク認識、継続的な再サンプリングを行うプラグイン・アンド・プレイモジュールである。
GridSは、10%未満のオリジナルビジュアルトークンで劇的な圧縮を実現しつつ、必須の空間情報を保存する。
- 参考スコア(独自算出の注目度): 25.03258383353867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have shown remarkable promise in robotics manipulation, yet their high computational cost hinders real-time deployment. Existing token pruning methods suffer from a fundamental trade-off: aggressive compression using pruning inevitably discards critical geometric details like contact points, leading to severe performance degradation. This forces a compromise, limiting the achievable compression rate and thus the potential speedup. We argue that breaking this trade-off requires rethinking compression as a geometry-aware, continuous token resampling in the vision encoder. To this end, we propose the Differentiable Grid Sampler (GridS), a plug-and-play module that performs task-aware, continuous resampling of visual tokens in VLA. By adaptively predicting a minimal set of salient coordinates and extracting features via differentiable interpolation, GridS preserves essential spatial information while achieving drastic compression (with fewer than 10% original visual tokens). Experiments on both LIBERO benchmark and a real robotic platform demonstrate that validating the lowest feasible visual token count reported to date, GridS achieves a 76% reduction in FLOPs with no degradation in the success rate. The code is available at https://github.com/Fediory/Grid-Sampler.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作において顕著な将来性を示しているが、その高い計算コストは、リアルタイムデプロイメントを妨げている。
プルーニングを用いたアグレッシブ圧縮は、接触点のような重要な幾何学的詳細を必然的に破棄し、重大な性能劣化をもたらす。
これにより妥協を余儀なくされ、達成可能な圧縮速度と潜在的なスピードアップが制限される。
このトレードオフを破るには、圧縮を視覚エンコーダ内の幾何学的かつ連続的なトークン再サンプリングとして再考する必要がある、と我々は主張する。
この目的のために,VLAにおける視覚トークンのタスク認識,継続的な再サンプリングを行うプラグイン・アンド・プレイモジュールであるGridSを提案する。
最小限の塩分座標を適応的に予測し、微分可能な補間によって特徴を抽出することにより、GridSは(10%未満のオリジナルビジュアルトークンで)劇的な圧縮を達成しつつ、必須の空間情報を保存する。
LIBEROベンチマークと実際のロボットプラットフォームの両方の実験では、これまで報告された最も低い実現可能な視覚トークン数を検証することで、GridSは成功率を低下させることなく、FLOPの76%の削減を実現している。
コードはhttps://github.com/Fediory/Grid-Sampler.comで入手できる。
関連論文リスト
- DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference [5.305950698447464]
VLA(Vision-Language-Action)モデルは、一般的なロボット操作を可能にするが、高い推論遅延に悩まされる。
DepthCacheは、ビジュアルトークン圧縮のための構造的事前として奥行きを利用する、トレーニング不要のフレームワークである。
LIBEROベンチマークでは、DepthCacheは最大1.28倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2026-03-11T06:40:44Z) - PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - Efficient Video Sampling: Pruning Temporally Redundant Tokens for Faster VLM Inference [5.146388234814547]
長いビデオはしばしば現代の言語モデルのトークン予算を超え、厳しいコンテキスト制限とレイテンシの問題に繋がる。
本稿では,時間的に静的なパッチを識別・プルーニングすることで,ビデオ中のトークンの冗長性を低減できる簡易なプラグイン・アンド・プレイ方式であるEfficient Video Sampling (EVS)を紹介する。
EVSは意味的忠実性を維持しながらトークン数を大幅に削減し、より高速な推論とより長い入力シーケンスを可能にする。
論文 参考訳(メタデータ) (2025-10-16T12:34:38Z) - OmniSAT: Compact Action Token, Faster Auto Regression [70.70037017501357]
我々は、コンパクトで転送可能なアクション表現を学ぶOmni Swift Action Tokenizerを紹介する。
その結果、離散トークン化はトレーニングシーケンスを6.8$times$に短縮し、ターゲットエントロピーを低下させる。
論文 参考訳(メタデータ) (2025-10-08T03:55:24Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。