論文の概要: RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.04972v1
- Date: Sat, 04 Apr 2026 13:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.370454
- Title: RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models
- Title(参考訳): RCP:大型ビジョンランゲージモデルにおける分布シフトの緩和のための表現整合プルーナ
- Authors: Jianwei Zhang, Chaoning Zhang, Sihan Cao, Wang Liu, Pengcheng Zheng, Jiaxin Huang, Caiyan Qin, Yalan Ye, Wei Dong, Yang Yang,
- Abstract要約: LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。
既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。
本稿では,累積的視覚トークンプルーニングと遅延修復機構を統合した一貫性表現プルーナを提案する。
- 参考スコア(独自算出の注目度): 24.3914653184824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) suffer from prohibitive inference costs due to the massive number of visual tokens processed by the language decoder. Existing pruning methods often lead to significant performance degradation because the irreversible removal of visual tokens causes a distribution shift in the hidden states that deviates from the pre-trained full-token regime. To address this, we propose Representation Consistency Pruner, which we refer to as RCP, as a novel framework that integrates cumulative visual token pruning with a delayed repair mechanism. Specifically, we introduce a cross-attention pruner that leverages the intrinsic attention of the LLM as a baseline to predict cumulative masks, ensuring consistent and monotonic token reduction across layers. To compensate for the resulting information loss, we design a delayed repair adapter denoted as DRA, which caches the essence of pruned tokens and applies FiLM-based modulation specifically to the answer generation tokens. We employ a repair loss to match the first and second-order statistics of the pruned representations with a full-token teacher. RCP is highly efficient because it trains only lightweight plug-in modules while allowing for physical token discarding at inference. Extensive experiments on LVLM benchmarks demonstrate that RCP removes up to 88.9\% of visual tokens and reduces FLOPs by up to 85.7\% with only a marginal average accuracy drop, and outperforms prior methods that avoid fine-tuning the original model on several widely used benchmarks.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。
既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。
そこで本稿では,Representation Consistency Prunerを提案する。Representation Consistency Prunerは,累積的視覚トークンプルーニングと遅延修復機構を統合した新しいフレームワークである。
具体的には,LCMの固有の注意をベースラインとして活用して累積マスクを予測し,層間における一貫した一重項トークンの減少を確実にするクロスアテンションプルーナーを提案する。
得られた情報損失を補うため,DRAと表記される遅延補修アダプタを設計し,プルーンドトークンの本質をキャッシュし,特に応答生成トークンにFiLMに基づく変調を適用する。
そこで本研究では,一階目と二階目の表現統計をフルトーケンの教師と一致させるために,修復損失を用いる。
RCPは軽量なプラグインモジュールのみをトレーニングし、推論時に物理的トークンの破棄を可能にするため、非常に効率的である。
LVLMベンチマークの大規模な実験により、RCPは最大88.9\%の視覚トークンを除去し、限界平均精度の低下しかなく、FLOPを85.7\%まで削減し、多くの広く使用されているベンチマークでオリジナルのモデルを微調整するのを避ける以前の手法より優れていることが示された。
関連論文リスト
- From Early Encoding to Late Suppression: Interpreting LLMs on Character Counting Tasks [49.57538588967748]
LLM(Large Language Model)は、複雑なベンチマークでは優れているにもかかわらず、単語中の文字数などの基本的な記号的タスクにおいて失敗を示す。
我々は、LLaMA、Qwen、Gemmaなど、現代のアーキテクチャにまたがる一貫した現象を発見した。
LLMにおけるシンボリック推論失敗は,表現不足やスケール不足によるものではなく,モデル計算グラフ内の構造的干渉によるものであることを示す。
論文 参考訳(メタデータ) (2026-04-01T11:40:12Z) - FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - Grounding-Aware Token Pruning: Recovering from Drastic Performance Drops in Visual Grounding Caused by Pruning [10.271284217509482]
MLLM(Multimodal Large Language Models)は、視覚的接地において強力な性能を示す。
我々はプルーニングがモデルのグラウンド化能力を大幅に低下させ、誤った予測と劇的な性能低下をもたらすことを観察した。
位置IDを簡易かつ効果的に調整し,RECの精度を51.42%まで回復するGrounding-Aware Token Pruning (GAP)を提案する。
論文 参考訳(メタデータ) (2025-06-27T03:11:22Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - TPC-ViT: Token Propagation Controller for Efficient Vision Transformer [6.341420717393898]
ビジョントランス (ViT) は様々なコンピュータビジョンタスクにおいて有望な結果を得た。
この課題に対処するために、段階的なトークン削減を採用する以前のアプローチでは、ひとつのレイヤにおけるトークンの冗長性は、以下のすべてのレイヤにおける冗長性を意味すると仮定されている。
本稿では、2つの異なるトークン分布を組み込んだ新しいトークン伝搬制御器(TPC)を提案する。
論文 参考訳(メタデータ) (2024-01-03T00:10:33Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。