論文の概要: LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2501.13652v2
- Date: Sun, 09 Mar 2025 21:32:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:06.070213
- Title: LVPruning: An Effective yet Simple Language-Guided Vision Token Pruning Approach for Multi-modal Large Language Models
- Title(参考訳): LVPruning: マルチモーダル大規模言語モデルに対する効果的な、かつシンプルな言語誘導型視覚整形法
- Authors: Yizheng Sun, Yanze Xin, Hao Li, Jingyuan Sun, Chenghua Lin, Riza Batista-Navarro,
- Abstract要約: MLLMのためのLVP(Language-Guided Vision Token Pruning)を提案する。
LVPruningは、言語トークンとの相互作用に基づいて視覚トークンの重要性を計算するために、クロスアテンションモジュールを使用している。
実験により、LLaVA-1.5の中間層によって、LVPruningは視覚トークンの90%を効果的に削減できることが示された。
- 参考スコア(独自算出の注目度): 18.489240454283834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have achieved remarkable success by integrating visual and textual modalities. However, they incur significant computational overhead due to the large number of vision tokens processed, limiting their practicality in resource-constrained environments. We introduce Language-Guided Vision Token Pruning (LVPruning) for MLLMs, an effective yet simple method that significantly reduces the computational burden while preserving model performance. LVPruning employs cross-attention modules to compute the importance of vision tokens based on their interaction with language tokens, determining which to prune. Importantly, LVPruning can be integrated without modifying the original MLLM parameters, which makes LVPruning simple to apply or remove. Our experiments show that LVPruning can effectively reduce up to 90% of vision tokens by the middle layer of LLaVA-1.5, resulting in a 62.1% decrease in inference Tera Floating-Point Operations Per Second (TFLOPs), with an average performance loss of just 0.45% across nine multi-modal benchmarks.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)は、視覚とテキストのモダリティを統合することで大きな成功を収めた。
しかし、多くの視覚トークンが処理され、リソース制約のある環境での実用性が制限されるため、計算オーバーヘッドが大幅に増大する。
モデル性能を維持しながら計算負担を大幅に軽減する,効果的かつ簡便な手法であるMLLMに対するLVPruning(Language-Guided Vision Token Pruning)を導入する。
LVPruningは、言語トークンとの相互作用に基づいて視覚トークンの重要性を計算し、どのプルーを行うかを決定するために、クロスアテンションモジュールを使用している。
重要なことに、LVPruningはオリジナルのMLLMパラメータを変更することなく統合できるため、LVPruningの適用や削除が簡単になる。
LLaVA-1.5の中間層では,LVPruningは視覚トークンの90%を効果的に削減できることを示す。その結果,TFLOP(Terra Floating-Point Operations Per Second)は62.1%減少し,9つのマルチモーダルベンチマークで平均性能損失は0.45%に留まった。
関連論文リスト
- Short-LVLM: Compressing and Accelerating Large Vision-Language Models by Pruning Redundant Layers [45.233150828317164]
視覚言語モデル(LVLM)は、マルチモーダル理解と推論において印象的な能力を示した。
自然言語処理 (NLP) による最近の取り組みは, レイヤープルーニングの有効性を示し, トレーニング不要な圧縮ソリューションを提供している。
しかし、視覚と言語の違いから、これらのNLP技術がLVLMにも有効かどうかは不明である。
論文 参考訳(メタデータ) (2025-07-31T09:17:53Z) - Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。
SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術
本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文 参考訳(メタデータ) (2025-07-28T11:57:52Z) - Mono-InternVL-1.5: Towards Cheaper and Faster Monolithic Multimodal Large Language Models [70.59376970630387]
本稿では,モノリシックなマルチモーダル大言語モデル(MLLM)について述べる。
モノリシックMLLMの既存の構造と事前学習戦略は不安定な最適化と破滅的な忘れ込みに悩まされることが多い。
これらの課題に対処するために、我々は、新しい視覚パラメータ空間を事前訓練されたLLMに組み込むことで、デルタチューニングによるノイズの多いデータから視覚知識の安定した学習を可能にする。
論文 参考訳(メタデータ) (2025-07-16T18:31:23Z) - LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation [17.318287255400175]
本稿では,シームレスかつ効率的な視覚言語融合を実現する新しいLVLMであるLaViを提案する。
視覚トークンの結合に依存する支配的なLVLMとは異なり、LaViは長いコンテキスト拡張をバイパスする。
LLaVA-OV-7Bと比較して、LaViはFLOPを94.0%削減し、推論速度を3.1倍改善し、メモリ使用量を半分に削減した。
論文 参考訳(メタデータ) (2025-06-20T02:25:33Z) - Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective [6.258220461022373]
既存のMultimodal Large Language Models (MLLM) は多数の視覚トークンを処理し、計算コストと非効率性をもたらす。
トークン圧縮はLLMの入力段階では不可能な性能損失で実現可能であることを示す。
本稿では,第1のLCMレイヤのアテンションマップから説明結果へのマッピングを学習し,完全な推論パスの必要性を回避することを提案する。
論文 参考訳(メタデータ) (2025-06-01T17:44:16Z) - Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - LLaVA-CoT: Let Vision Language Models Reason Step-by-Step [36.042551817732964]
LLaVA-CoTは、自律的な多段階推論を実現するために設計された新しいVLMである。
チェーン・オブ・シークレットのプロンプトとは異なり、LLaVA-CoTは独立に要約、視覚的解釈、論理的推論、結論生成の逐次的な段階に関与する。
100kのトレーニングサンプルと単純な推論時間スケーリング手法により、LLaVA-CoTはベースモデルを幅広いマルチモーダル推論ベンチマークで7.4%上回る。
論文 参考訳(メタデータ) (2024-11-15T18:58:31Z) - LLM2CLIP: Powerful Language Model Unlocks Richer Visual Representation [72.02635550088546]
この研究は、大規模言語モデル(LLM)がCLIPの機能をどのように強化するか、特により長く複雑なイメージキャプションを処理するために検討する。
キャプション・トゥ・キャプション・トゥ・キャプション・トゥ・コントラスト・ファインチューニング・フレームワークを導入し,LLM出力の識別品質を大幅に向上させた。
提案手法はLoRA法よりも優れ,より優れた性能で4倍近い高速トレーニングを実現している。
論文 参考訳(メタデータ) (2024-11-07T18:59:16Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。
トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。
本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文 参考訳(メタデータ) (2024-10-08T16:13:24Z) - EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model [14.767055057048855]
データ効率・計算効率・マルチモーダル大言語モデル(EE-MLLM)について紹介する。
EE-MLLMは、追加モジュールや学習可能なパラメータを導入することなく、データと計算効率の両方を達成する。
実験により,EE-MLLMのベンチマークにおける有効性を示した。
論文 参考訳(メタデータ) (2024-08-21T17:36:37Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z) - EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge
Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。
EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。
効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文 参考訳(メタデータ) (2022-10-14T13:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。