論文の概要: Adaptive-VoCo: Complexity-Aware Visual Token Compression for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.18496v1
- Date: Sat, 20 Dec 2025 20:24:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.367406
- Title: Adaptive-VoCo: Complexity-Aware Visual Token Compression for Vision-Language Models
- Title(参考訳): Adaptive-VoCo:視覚言語モデルにおける複雑度を考慮した視覚トーケン圧縮
- Authors: Xiaoyang Guo, Keze Wang,
- Abstract要約: 本稿では,VoCo-LLaMAを適応圧縮のための軽量な予測器で拡張するフレームワークであるAdaptive-VoCoを提案する。
実験結果から,本手法は複数のマルチモーダルタスクの固定レートベースラインを一貫して上回ることがわかった。
- 参考スコア(独自算出の注目度): 19.536595270049016
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, large-scale vision-language models (VLMs) have demonstrated remarkable performance on multimodal understanding and reasoning tasks. However, handling high-dimensional visual features often incurs substantial computational and memory costs. VoCo-LLaMA alleviates this issue by compressing visual patch tokens into a few VoCo tokens, reducing computational overhead while preserving strong cross-modal alignment. Nevertheless, such approaches typically adopt a fixed compression rate, limiting their ability to adapt to varying levels of visual complexity. To address this limitation, we propose Adaptive-VoCo, a framework that augments VoCo-LLaMA with a lightweight predictor for adaptive compression. This predictor dynamically selects an optimal compression rate by quantifying an image's visual complexity using statistical cues from the vision encoder, such as patch token entropy and attention map variance. Furthermore, we introduce a joint loss function that integrates rate regularization with complexity alignment. This enables the model to balance inference efficiency with representational capacity, particularly in challenging scenarios. Experimental results show that our method consistently outperforms fixed-rate baselines across multiple multimodal tasks, highlighting the potential of adaptive visual compression for creating more efficient and robust VLMs.
- Abstract(参考訳): 近年,大規模視覚言語モデル (VLM) は多モーダル理解および推論タスクにおいて顕著な性能を示した。
しかし、高次元の視覚的特徴を扱うと、かなりの計算とメモリコストが発生する。
VoCo-LLaMAは、ビジュアルパッチトークンをいくつかのVoCoトークンに圧縮することでこの問題を軽減する。
しかしながら、そのようなアプローチは一般的に一定の圧縮率を採用し、様々なレベルの視覚的複雑さに適応する能力を制限する。
本稿では,VoCo-LLaMAを適応圧縮のための軽量な予測器で拡張するフレームワークであるAdaptive-VoCoを提案する。
この予測器は、パッチトークンエントロピーやアテンションマップの分散といったビジョンエンコーダからの統計的手がかりを用いて、画像の視覚的複雑さを定量化し、最適な圧縮率を動的に選択する。
さらに,速度正規化と複雑性アライメントを統合した共同損失関数を導入する。
これにより、特に困難なシナリオにおいて、モデルが推論効率と表現能力のバランスをとることができる。
実験結果から,本手法は複数のマルチモーダルタスクにまたがる固定レートベースラインを一貫して上回り,より効率的でロバストなVLMを実現するための適応的視覚圧縮の可能性を強調した。
関連論文リスト
- Towards Lossless Ultimate Vision Token Compression for VLMs [11.485425012979052]
Lossless Ultimate Vision tokens Compression (LUVC)フレームワークが提案されている。
LUVCは、言語モデルの最終層で完全に除去されるまで、ビジュアルトークンを圧縮する。
実験の結果,LUVCは言語モデルにおいて2つの高速化推定を達成し,精度の劣化を無視できることがわかった。
論文 参考訳(メタデータ) (2025-12-09T15:40:13Z) - Compressor-VLA: Instruction-Guided Visual Token Compression for Efficient Robotic Manipulation [8.316354570715491]
VLA(Vision-Language-Action)モデルは、Embodied AIにおいて強力なパラダイムとして登場した。
本稿では,視覚情報の効率的なタスク指向圧縮を目的とした,ハイブリッドな命令条件付きトークン圧縮フレームワークを提案する。
提案手法は,FLOPを59%,視覚トークン数を3倍以上削減しつつ,LIBEROベンチマークの競争的成功率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-24T10:06:41Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。
データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。
強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文 参考訳(メタデータ) (2025-08-03T02:15:43Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - Task-Oriented Feature Compression for Multimodal Understanding via Device-Edge Co-Inference [54.53508601749513]
本稿では,マルチモーダル理解のためのタスク指向特徴圧縮(TOFC)手法を提案する。
圧縮効率を向上させるために、視覚特徴の特性に基づいて複数のエントロピーモデルを適応的に選択する。
その結果,TOFCはデータ転送オーバーヘッドを最大52%削減し,システム遅延を最大63%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-17T08:37:22Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - LVQAC: Lattice Vector Quantization Coupled with Spatially Adaptive
Companding for Efficient Learned Image Compression [24.812267280543693]
本稿では,空間適応型コンパウンディング(LVQAC)マッピングを併用した新しい格子ベクトル量子化方式を提案する。
エンドツーエンドのCNN画像圧縮モデルでは、一様量子化器をLVQACで置き換えることにより、モデルの複雑さを大幅に増大させることなく、より優れたレート歪み性能が得られる。
論文 参考訳(メタデータ) (2023-03-25T23:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。