論文の概要: LRCP: Low-Rank Compressibility Guided Visual Token Pruning for Efficient LVLMs
- arxiv url: http://arxiv.org/abs/2605.15621v1
- Date: Fri, 15 May 2026 05:09:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.178361
- Title: LRCP: Low-Rank Compressibility Guided Visual Token Pruning for Efficient LVLMs
- Title(参考訳): LRCP:高効率LVLMのための低域圧縮性誘導ビジュアルトーケンプルーニング
- Authors: Hongyu Lu, Feng Zhang, Wenwei Jin, Huanling Hu, Tianjun Shi, Shikai Jiang, Yao Hu, Jiawei Li,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、強力なマルチモーダル理解を実現するが、その推論コストは視覚トークンの数によって急速に増大する。
トレーニング不要な圧縮フレームワークであるLRCPを提案し、PCAを介して視覚トークンの上位の低ランク部分空間を推定する。
実験の結果、LRCPは、88.9%のトークン削減と87.5%のトークン削減で、オリジナルの画像下降性能の94.7%、平均的なビデオ下降精度の97.8%を保った。
- 参考スコア(独自算出の注目度): 17.414538189207775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) achieve strong multimodal understanding, but their inference cost grows rapidly with the number of visual tokens, especially for high-resolution images and long videos. Existing attention-based methods estimate token importance from attention scores, which may introduce positional bias, while representation-based methods reduce visual redundancy based on feature relations or reconstruction errors, overlooking the global structure of the visual token set. In this paper, we revisit visual token compression from the perspective of low-rank compressibility. Across models and datasets, we observe that visual token representations exhibit a pronounced low-rank structure, with a dominant subspace that remains stable even after a large fraction of tokens is randomly removed. Motivated by this finding, we propose LRCP, a training-free compression framework that first estimates the dominant low-rank subspace of visual tokens via PCA, and then scores each token by its projection residual onto this subspace, retaining tokens that are poorly explained by the low-rank background. Extensive experiments show that LRCP achieves superior results, preserving 94.7% of the original image-understanding performance with an 88.9% token reduction and 97.8% of the average video-understanding accuracy with an 87.5% token reduction.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、強力なマルチモーダル理解を実現するが、その推論コストは、特に高解像度の画像や長いビデオにおいて、視覚トークンの数の増加とともに急速に増大する。
既存のアテンションベース手法では、注目スコアからトークンの重要性を推定し、位置バイアスを生じさせる一方、表現ベース手法は、視覚トークンセットのグローバルな構造を見渡すことで、特徴関係や再構成エラーに基づく視覚的冗長性を減少させる。
本稿では,低ランク圧縮性の観点から,視覚的トークン圧縮を再考する。
モデルとデータセット全体にわたって、視覚的トークン表現は顕著な低ランク構造を示し、大量のトークンをランダムに除去した後でも安定な支配的部分空間を持つ。
この発見を動機として,まずPCAを介して視覚トークンの上位の低ランク部分空間を推定し,そのサブスペースへの投射残差によって各トークンをスコアし,低ランク背景によって説明されていないトークンを保持する訓練自由圧縮フレームワークLRCPを提案する。
広範な実験により、LRCPは、88.9%のトークン削減、平均的なビデオ理解精度の97.8%のトークン削減で、オリジナルの画像理解性能の94.7%を保存し、優れた結果が得られることが示されている。
関連論文リスト
- Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models [52.78477729846771]
本稿では,COAST(Contrastive Adaptive Semantic Token Pruning)について紹介する。
COASTはトークン予算をまたいだ強力なプルーニングベースラインを一貫して上回り、複数のLVLMファミリをまたいだ一般化を実現している。
論文 参考訳(メタデータ) (2026-05-10T09:07:04Z) - RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models [24.3914653184824]
LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。
既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。
本稿では,累積的視覚トークンプルーニングと遅延修復機構を統合した一貫性表現プルーナを提案する。
論文 参考訳(メタデータ) (2026-04-04T13:31:45Z) - ASAP: Attention-Shift-Aware Pruning for Efficient LVLM Inference [26.71949723961501]
本稿では,新しいトレーニングフリーなKVキャッシュ対応プルーニングレシピであるASAPを提案する。
ダイナミックな双方向ソフトアテンションマスクを利用することで、アテンションシフトを緩和する。
また、トークンセット内の高い意味的冗長性は性能を低下させると仮定する。
論文 参考訳(メタデータ) (2026-03-15T18:51:31Z) - ApET: Approximation-Error Guided Token Compression for Efficient VLMs [16.4657793751671]
本稿では,近似エラーガイド付きToken圧縮フレームワークであるApETを紹介する。
ApETは、画像理解タスクのオリジナルパフォーマンスの95.2%を保持し、ビデオ理解タスクの100.4%を達成している。
ApETは無注意設計のため、FlashAttentionとシームレスに統合され、さらなる推論を可能にし、VLMのデプロイをより実用的なものにしている。
論文 参考訳(メタデータ) (2026-02-23T14:15:37Z) - Parallel Vision Token Scheduling for Fast and Accurate Multimodal LMMs Inference [68.4758228017823]
ParVTSは、ビジュアルトークンを被写体および非オブジェクトグループに分割し、それらを並列に処理し、それらのセマンティクスを疑問トークンに転送し、非オブジェクトパスミッド推論を破棄する。
実験の結果、ParVTSは最大88.9%の視覚トークンを出力し、最小性能が低下し、1.77倍のスピードアップと70%のFLOPが削減された。
論文 参考訳(メタデータ) (2025-11-24T08:29:36Z) - Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - PoRe: Position-Reweighted Visual Token Pruning for Vision Language Models [12.189644988996022]
本稿では,視覚的トークンプルーニングにおける遅延バイアスを軽減するための,極めて単純かつ効果的なアプローチを提案する。
画像内の空間的位置に応じて視覚的トークンの注意点を調節する簡単なリウェイト機構を提案する。
提案手法は,既存のビジュアルトークンプルーニングフレームワークにシームレスに組み込むことができるプラグイン・アンド・プレイソリューションである。
論文 参考訳(メタデータ) (2025-08-25T08:56:32Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。