論文の概要: ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers
- arxiv url: http://arxiv.org/abs/2504.00502v1
- Date: Tue, 01 Apr 2025 07:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:53.841639
- Title: ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers
- Title(参考訳): ショートV:非効率層における視覚トークンの凍結による効率的なマルチモーダル大言語モデル
- Authors: Qianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun,
- Abstract要約: MLLM(Multimodal Large Language Models)はその巨大なサイズと多数の視覚トークンのために高い計算コストを被る。
本稿では,レイヤの変換が視覚およびテキストトークンに与える影響を定量化する新しいメトリクスであるレイヤ貢献(LC)を紹介する。
LCを利用して非効率なレイヤを識別し,これらのレイヤの視覚的トークン更新を凍結する,トレーニング不要なShortVを提案する。
- 参考スコア(独自算出の注目度): 42.85956522420325
- License:
- Abstract: Multimodal Large Language Models (MLLMs) suffer from high computational costs due to their massive size and the large number of visual tokens. In this paper, we investigate layer-wise redundancy in MLLMs by introducing a novel metric, Layer Contribution (LC), which quantifies the impact of a layer's transformations on visual and text tokens, respectively. The calculation of LC involves measuring the divergence in model output that results from removing the layer's transformations on the specified tokens. Our pilot experiment reveals that many layers of MLLMs exhibit minimal contribution during the processing of visual tokens. Motivated by this observation, we propose ShortV, a training-free method that leverages LC to identify ineffective layers, and freezes visual token updates in these layers. Experiments show that ShortV can freeze visual token in approximately 60\% of the MLLM layers, thereby dramatically reducing computational costs related to updating visual tokens. For example, it achieves a 50\% reduction in FLOPs on LLaVA-NeXT-13B while maintaining superior performance. The code will be publicly available at https://github.com/icip-cas/ShortV
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はその巨大なサイズと多数の視覚トークンのために高い計算コストを被る。
本稿では,MLLMにおけるレイヤの冗長性について,各レイヤの変換が視覚およびテキストトークンに与える影響を定量化する新しいメトリクスであるレイヤコントリビューション(LC)を導入して検討する。
LCの計算は、特定のトークン上の層の変換を取り除いた結果のモデル出力のばらつきを測定することを含む。
実験の結果,MLLMの層は視覚トークン処理において最小限の寄与しか示さないことが明らかとなった。
本研究の目的は,LCを利用して非効率なレイヤを識別し,これらのレイヤの視覚的トークン更新を凍結する,トレーニング不要なShortVを提案することである。
実験により、ShortVはMLLMの約60%の層で視覚トークンを凍結し、視覚トークンの更新に伴う計算コストを劇的に削減できることが示された。
例えば、LLaVA-NeXT-13B上でのFLOPの50%削減を実現し、優れた性能を維持している。
コードはhttps://github.com/icip-cas/ShortVで公開される。
関連論文リスト
- What Kind of Visual Tokens Do We Need? Training-free Visual Token Pruning for Multi-modal Large Language Models from the Perspective of Graph [15.364317811275344]
本稿では,G-Prune と呼ばれる学習自由な視覚トークンプルーニングのためのグラフベースの手法を提案する。
G-Pruneは視覚トークンをノードとみなし、それらの意味的類似性に基づいて接続を構築する。
実験結果から,G-Pruneは粗いタスクと微粒なタスクの両方で高い性能を維持しながら,計算オーバーヘッドを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2025-01-04T12:14:42Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。
トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。
本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文 参考訳(メタデータ) (2024-10-08T16:13:24Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。