論文の概要: $\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2510.17205v1
- Date: Mon, 20 Oct 2025 06:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.335801
- Title: $\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs
- Title(参考訳): $\mathcal{V}isi\mathcal{P}runer$:効率的なマルチモーダルLCMのための不連続クロスモーダルダイナミクスのデコード
- Authors: Yingqi Fan, Anhao Zhao, Jinlan Fu, Junlong Tong, Hui Su, Yijie Pan, Wei Zhang, Xiaoyu Shen,
- Abstract要約: 我々は,LLaVA-v1.5 7B上での視線関連注意計算の最大99%,FLOPの最大53.9%を削減できるトレーニングフリープルーニングフレームワークであるemphVisiPrunerを提案する。
さらに、モデルアーキテクチャと本質的なレイヤワイド処理ダイナミクスを整合させることにより、効率的なMLLMのトレーニングのための実用的なガイドラインを提供する。
- 参考スコア(独自算出の注目度): 26.779915891040236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have achieved strong performance across vision-language tasks, but suffer from significant computational overhead due to the quadratic growth of attention computations with the number of multimodal tokens. Though efforts have been made to prune tokens in MLLMs, \textit{they lack a fundamental understanding of how MLLMs process and fuse multimodal information.} Through systematic analysis, we uncover a \textbf{three-stage} cross-modal interaction process: (1) Shallow layers recognize task intent, with visual tokens acting as passive attention sinks; (2) Cross-modal fusion occurs abruptly in middle layers, driven by a few critical visual tokens; (3) Deep layers discard vision tokens, focusing solely on linguistic refinement. Based on these findings, we propose \emph{VisiPruner}, a training-free pruning framework that reduces up to 99\% of vision-related attention computations and 53.9\% of FLOPs on LLaVA-v1.5 7B. It significantly outperforms existing token pruning methods and generalizes across diverse MLLMs. Beyond pruning, our insights further provide actionable guidelines for training efficient MLLMs by aligning model architecture with its intrinsic layer-wise processing dynamics. Our code is available at: https://github.com/EIT-NLP/VisiPruner.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語タスクにまたがる強力な性能を達成しているが、マルチモーダルトークンの数による注意計算の2次的な増加により、計算オーバーヘッドが著しく低下している。
MLLMのトークンを掘り起こそうとしているが、 \textit{they は MLLM がどのように処理し、マルチモーダル情報を融合するかという根本的な理解を欠いている。
組織的分析により,(1)視覚的トークンが受動的注意シンクとして機能し,タスク意図を認識する浅層,(2)いくつかの重要な視覚的トークンによって誘導される中層において,クロスモーダル融合が突然発生する層,(3)言語的洗練に焦点をあてた深い層が視覚的トークンを放棄する層,などが明らかになった。
これらの結果に基づき,LLaVA-v1.5 7B上での視線関連アテンション計算の最大9%,FLOPの最大53.9%を削減できるトレーニングフリープルーニングフレームワークである \emph{VisiPruner} を提案する。
既存のトークンプルーニング法を著しく上回り、様々なMLLMにまたがって一般化する。
プルーニング以外にも、モデルアーキテクチャと本質的なレイヤワイド処理ダイナミクスを整合させることにより、効率的なMLLMをトレーニングするための実用的なガイドラインも提供しています。
私たちのコードは、https://github.com/EIT-NLP/VisiPruner.comで利用可能です。
関連論文リスト
- Sparse Training Scheme for Multimodal LLM [26.81140959413325]
MLLM(Multimodal Large Language Models)は、様々な領域において優れた性能を示す。
スパース・トレーニング・スキーム(STS)と呼ばれるスパース表現に基づく新しい学習効率向上フレームワークを提案する。
このスキームは、ビジュアルトークンを圧縮することで情報負荷を削減するVisual Tokenと、前方および後方の両方で言語モデルの不要なレイヤをスキップすることで計算オーバーヘッドを軽減するLayer Dynamic Skipperの2つの重要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-09-16T11:33:20Z) - Generic Token Compression in Multimodal Large Language Models from an Explainability Perspective [6.258220461022373]
既存のMultimodal Large Language Models (MLLM) は多数の視覚トークンを処理し、計算コストと非効率性をもたらす。
トークン圧縮はLLMの入力段階では不可能な性能損失で実現可能であることを示す。
本稿では,第1のLCMレイヤのアテンションマップから説明結果へのマッピングを学習し,完全な推論パスの必要性を回避することを提案する。
論文 参考訳(メタデータ) (2025-06-01T17:44:16Z) - ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。
トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。
本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文 参考訳(メタデータ) (2024-10-08T16:13:24Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。