論文の概要: Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.18950v1
- Date: Mon, 24 Nov 2025 10:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.150043
- Title: Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation
- Title(参考訳): 効率的なロボットマニピュレーションのための指導誘導型視覚トーケン圧縮装置-VLA
- Authors: Juntao Gao, Feiyang Ye, Jing Zhang, Wenjing Qian,
- Abstract要約: VLA(Vision-Language-Action)モデルは、Embodied AIにおいて強力なパラダイムとして登場した。
本稿では,視覚情報の効率的なタスク指向圧縮を目的とした,ハイブリッドな命令条件付きトークン圧縮フレームワークを提案する。
提案手法は,FLOPを59%,視覚トークン数を3倍以上削減しつつ,LIBEROベンチマークの競争的成功率を実現していることを示す。
- 参考スコア(独自算出の注目度): 8.316354570715491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a powerful paradigm in Embodied AI. However, the significant computational overhead of processing redundant visual tokens remains a critical bottleneck for real-time robotic deployment. While standard token pruning techniques can alleviate this, these task-agnostic methods struggle to preserve task-critical visual information. To address this challenge, simultaneously preserving both the holistic context and fine-grained details for precise action, we propose Compressor-VLA, a novel hybrid instruction-conditioned token compression framework designed for efficient, task-oriented compression of visual information in VLA models. The proposed Compressor-VLA framework consists of two token compression modules: a Semantic Task Compressor (STC) that distills holistic, task-relevant context, and a Spatial Refinement Compressor (SRC) that preserves fine-grained spatial details. This compression is dynamically modulated by the natural language instruction, allowing for the adaptive condensation of task-relevant visual information. Experimentally, extensive evaluations demonstrate that Compressor-VLA achieves a competitive success rate on the LIBERO benchmark while reducing FLOPs by 59% and the visual token count by over 3x compared to its baseline. The real-robot deployments on a dual-arm robot platform validate the model's sim-to-real transferability and practical applicability. Moreover, qualitative analyses reveal that our instruction guidance dynamically steers the model's perceptual focus toward task-relevant objects, thereby validating the effectiveness of our approach.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、Embodied AIにおいて強力なパラダイムとして登場した。
しかし、冗長な視覚トークンを処理する際の計算オーバーヘッドは、リアルタイムなロボット展開において重要なボトルネックとなっている。
標準的なトークンプルーニング技術は、これを緩和するが、これらのタスクに依存しない手法は、タスククリティカルな視覚情報を保存するのに苦労する。
この課題に対処するため,VLAモデルにおける視覚情報の効率的なタスク指向圧縮を目的としたハイブリッド命令条件付きトークン圧縮フレームワークであるCompressor-VLAを提案する。
提案したCompressor-VLAフレームワークは2つのトークン圧縮モジュールから構成される: 全体的なタスク関連コンテキストを蒸留するSemantic Task Compressor (STC) と、きめ細かい空間の詳細を保存するSRC (Spatial Refinement Compressor) である。
この圧縮は自然言語命令によって動的に変調され、タスク関連視覚情報の適応的凝縮を可能にする。
実験的に、Compressor-VLAはLIBEROベンチマークにおいて、FLOPを59%削減し、ビジュアルトークン数をベースラインの3倍以上に削減しながら、競争的な成功率を達成することを示した。
デュアルアームロボットプラットフォーム上の実ロボット配置は、モデルのsim-to-realトランスファービリティと実用的な適用性を検証する。
さらに、定性的な分析により、モデルのタスク関連オブジェクトに対する知覚的焦点を動的に制御し、提案手法の有効性を検証した。
関連論文リスト
- CORE: Compact Object-centric REpresentations as a New Paradigm for Token Merging in LVLMs [29.08277140543501]
視覚的トークン圧縮のための新しいパラダイムであるCORE(Compact Object-centric Representation)を紹介する。
COREは効率的なセグメンテーションデコーダを利用してオブジェクトマスクを生成する。
実験により、COREは固定レート圧縮のための6つの信頼性ベンチマークに対して新しい最先端のベンチマークを確立するだけでなく、適応レート設定において劇的な効率向上を達成することが示された。
論文 参考訳(メタデータ) (2025-11-18T03:02:23Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Knowledge-Informed Neural Network for Complex-Valued SAR Image Recognition [51.03674130115878]
本稿では,新しい「圧縮集約圧縮」アーキテクチャ上に構築された軽量なフレームワークであるKnowledge-Informed Neural Network(KINN)を紹介する。
KINNはパラメータ効率の認識における最先端を確立し、データスカースとアウト・オブ・ディストリビューションのシナリオにおいて例外的な一般化を提供する。
論文 参考訳(メタデータ) (2025-10-23T07:12:26Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - PIS: Linking Importance Sampling and Attention Mechanisms for Efficient Prompt Compression [3.6268731121741067]
大規模言語モデル(LLM)は目覚ましい進歩を遂げ、様々な自然言語処理タスクにまたがる前例のない能力を示している。
既存のプロンプト圧縮法は、トラルニケーションや抽象的な要約技術に依存している。
本稿では,重要なトークンをサンプリングすることによってプロンプトを動的に圧縮する新しい圧縮フレームワークであるPrompt Importance Smpling(PIS)を紹介する。
論文 参考訳(メタデータ) (2025-04-23T09:53:01Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Perception Compressor: A Training-Free Prompt Compression Framework in Long Context Scenarios [17.720102137585503]
Perceptionは、大規模な言語モデルのためのトレーニングフリーのプロンプト圧縮フレームワークである。
これには、指導的質問と指示を利用して、最も関連するデモンストレーションを検索する知覚検索機能が含まれる。
長いコンテキスト、ベンチマーク、iSie、LongBench、MuSiQueに関する広範な実験を行います。
論文 参考訳(メタデータ) (2024-09-28T07:13:33Z) - Generalized Nested Latent Variable Models for Lossy Coding applied to Wind Turbine Scenarios [14.48369551534582]
学習に基づくアプローチは、圧縮率と再構成された画質の妥協を最小化する。
成功したテクニックは、2レベルネストされた潜伏変数モデル内で機能するディープハイパープライアの導入である。
本稿では,マルコフ連鎖構造を持つ一般化Lレベルネスト生成モデルを設計することによって,この概念を拡張した。
論文 参考訳(メタデータ) (2024-06-10T11:00:26Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。