論文の概要: Short-LVLM: Compressing and Accelerating Large Vision-Language Models by Pruning Redundant Layers
- arxiv url: http://arxiv.org/abs/2507.23362v1
- Date: Thu, 31 Jul 2025 09:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.412105
- Title: Short-LVLM: Compressing and Accelerating Large Vision-Language Models by Pruning Redundant Layers
- Title(参考訳): 短LVLM:冗長層による大規模視線モデル圧縮・加速
- Authors: Ji Ma, Wei Suo, Peng Wang, Yanning Zhang,
- Abstract要約: 視覚言語モデル(LVLM)は、マルチモーダル理解と推論において印象的な能力を示した。
自然言語処理 (NLP) による最近の取り組みは, レイヤープルーニングの有効性を示し, トレーニング不要な圧縮ソリューションを提供している。
しかし、視覚と言語の違いから、これらのNLP技術がLVLMにも有効かどうかは不明である。
- 参考スコア(独自算出の注目度): 45.233150828317164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large vision-language models (LVLMs) have demonstrated impressive capabilities in multi-modal understanding and reasoning, their practical applications are still limited by massive model parameters and high computational costs. Recent efforts from natural language processing (NLP) have shown the effectiveness of layer pruning, offering a plausible training-free compression solution. However, due to the modality divergence between vision and language, it is unclear whether these NLP techniques are still effective in LVLMs. In this paper, we empirically prove that directly applying these layer pruning methods to LVLMs is ineffective. Through extensive experiments, we find that non-essential vision-language (VL) tokens and inter-layer feature gaps pose critical challenges to pruning layers in LVLMs. Based on these insights, we propose a novel framework Short-LVLM (SVL) that can utilize important VL tokens and mitigate the layer-wise feature gaps. Notably, Short-LVLM not only achieves a superior trade-off between performance and efficiency but also exhibits several potential advantages, i.e., training-free, model-agnostic, and highly compatible. The code for this work is publicly available at https://github.com/ASGO-MM/Short-LVLM.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)はマルチモーダル理解と推論において印象的な能力を示したが、その実践的応用は依然として膨大なモデルパラメータと高い計算コストによって制限されている。
自然言語処理 (NLP) による最近の取り組みは, レイヤプルーニングの有効性を示し, トレーニング不要な圧縮ソリューションを提供する。
しかし、視覚と言語の違いから、これらのNLP技術がLVLMにも有効かどうかは不明である。
本稿では,LVLMにこれらの層プルーニング法を直接適用することは有効ではないことを実証的に証明する。
広汎な実験により,LVLMにおいて,非エンセシデント視覚言語(VL)トークンと層間特徴ギャップが重要な課題となることがわかった。
これらの知見に基づいて,重要なVLトークンを有効活用し,階層的特徴ギャップを緩和する,新しいフレームワークであるショート・LVLM(SVL)を提案する。
特に、ショートLVLMは性能と効率の優れたトレードオフを達成するだけでなく、トレーニングフリー、モデル非依存、高度に互換性のあるいくつかの潜在的な利点も示している。
この作業のコードはhttps://github.com/ASGO-MM/Short-LVLMで公開されている。
関連論文リスト
- Mitigating Hallucinations in Large Vision-Language Models (LVLMs) via Language-Contrastive Decoding (LCD) [13.430637580980164]
Large Vision-Language Models (LVLM) は、画像入力とテキスト入力の両方の処理を容易にし、AI機能を拡張したLarge Language Models (LLM)の拡張である。
本研究では,LVLMの出力をLarge Language Models分布の信頼性レベルに基づいて調整するLanguage Contrastive Decoding (LCD)アルゴリズムを提案する。
本手法は,複雑な後処理や再学習を必要とせず,LVLMを効果的に改善し,異なるモデルに容易に適用できる。
論文 参考訳(メタデータ) (2024-08-06T08:10:34Z) - Large Visual-Language Models Are Also Good Classifiers: A Study of In-Context Multimodal Fake News Detection [0.18416014644193068]
本稿ではまず,CLIPモデルと比較し,LVLMとGPT4VのFND特性について検討する。
次に,標準文脈学習(ICL)をLVLMと統合し,FND性能の向上に言及する。
textbfIn-context textbfMultimodal textbfFake textbfNews textbfD
論文 参考訳(メタデータ) (2024-07-16T09:28:23Z) - LM4LV: A Frozen Large Language Model for Low-level Vision Tasks [25.3601306724822]
$textbfLM4LV$は、大規模な言語モデルで、マルチモーダルデータや事前データなしで、さまざまな低レベルの視覚タスクを解決できるフレームワークである。
これは低レベルのビジョンにおけるLLMの強い可能性を示し、MLLMと低レベルのビジョンタスクの間のギャップを埋める。
論文 参考訳(メタデータ) (2024-05-24T17:25:00Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z) - Cheap and Quick: Efficient Vision-Language Instruction Tuning for Large
Language Models [77.2078051555533]
大規模言語モデル(LLM)の有効なVL適応のための,新規で安価なソリューションを提案する。
画像エンコーダとLLMを接続するために大きなニューラルネットワークを使用する代わりに、MMAは軽量モジュール、すなわちアダプタを採用する。
MMAはまた、LLMがシングルモードとマルチモードの命令を自動シフトするのを助けるルーティングアルゴリズムも備えている。
論文 参考訳(メタデータ) (2023-05-24T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。