論文の概要: Dynamic Pyramid Network for Efficient Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2503.20322v1
- Date: Wed, 26 Mar 2025 08:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:27.597267
- Title: Dynamic Pyramid Network for Efficient Multimodal Large Language Model
- Title(参考訳): マルチモーダル大言語モデルのための動的ピラミッドネットワーク
- Authors: Hao Ai, Kunyi Wang, Zezhou Wang, Hao Lu, Jin Tian, Yaxin Luo, Peng Xing, Jen-Yuan Huang, Huaxia Li, Gen luo,
- Abstract要約: MLLM(Multimodal large language model)は様々な視覚言語(VL)タスクにおいて顕著な性能を示す。
近年の取り組みは、MLLMの計算コストを抑えるために視覚的特徴を圧縮することを目的としている。
効率的なMLLMのための新しい動的ピラミッドネットワーク(DPN)を提案する。
- 参考スコア(独自算出の注目度): 11.864416286283399
- License:
- Abstract: Multimodal large language models (MLLMs) have demonstrated impressive performance in various vision-language (VL) tasks, but their expensive computations still limit the real-world application. To address this issue, recent efforts aim to compress the visual features to save the computational costs of MLLMs. However, direct visual compression methods, e.g. efficient projectors, inevitably destroy the visual semantics in MLLM, especially in difficult samples. To overcome this shortcoming, we propose a novel dynamic pyramid network (DPN) for efficient MLLMs. Specifically, DPN formulates MLLM as a hierarchical structure where visual features are gradually compressed with increasing depth. In this case, even with a high compression ratio, fine-grained visual information can still be perceived in shallow layers. To maximize the benefit of DPN, we further propose an innovative Dynamic Pooling Experts (DPE) that can dynamically choose the optimal visual compression rate according to input features. With this design, harder samples will be assigned larger computations, thus preserving the model performance. To validate our approach, we conduct extensive experiments on two popular MLLMs and ten benchmarks. Experimental results show that DPN can save up to 56% average FLOPs on LLaVA while further achieving +0.74% performance gains. Besides, the generalization ability of DPN is also validated on the existing high-resolution MLLM called LLaVA-HR. Our source codes are anonymously released at https://github.com/aihao2000/DPN-LLaVA.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々な視覚言語(VL)タスクにおいて印象的な性能を示したが、その高価な計算は現実世界のアプリケーションを制限する。
この問題に対処するため、近年の取り組みは、MLLMの計算コストを抑えるために視覚的特徴を圧縮することを目的としている。
しかし、直接的な視覚的圧縮手法、例えば効率的なプロジェクタは、MLLMの視覚的意味論、特に難しいサンプルを必然的に破壊する。
この欠点を克服するために、効率的なMLLMのための新しい動的ピラミッドネットワーク(DPN)を提案する。
具体的には、DPNがMLLMを階層構造として定式化し、視覚的特徴を徐々に深度を増して圧縮する。
この場合、圧縮率が高い場合でも、浅い層ではきめ細かな視覚情報が認識できる。
DPNの利点を最大化するために、入力特徴に応じて最適な視覚圧縮率を動的に選択できる革新的な動的プールエキスパート(DPE)を提案する。
この設計により、より複雑なサンプルがより大きな計算に割り当てられ、モデルの性能が保たれる。
提案手法を検証するため,2つのMLLMと10のベンチマークを用いて広範囲な実験を行った。
実験の結果、DPNはLLaVA上で平均FLOPを最大56%節約し、さらに+0.74%の性能向上を達成した。
さらに、DPNの一般化能力は、LLaVA-HRと呼ばれる既存の高分解能MLLMにも検証されている。
ソースコードはhttps://github.com/aihao2000/DPN-LLaVA.comで匿名で公開されている。
関連論文リスト
- LLaVA-Zip: Adaptive Visual Token Compression with Intrinsic Image Information [4.33464415015353]
LLaVA-1.5に基づく動的特徴マップ削減(DFMR)を提案し、視覚的トークンオーバーロードの課題に対処する。
DFMRは視覚トークンを動的に圧縮し、トークン容量を解放する。
実験の結果, DFMRをLLaVA-1.5に統合することで, 各種視覚トークン長におけるLLaVAの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-11T20:46:06Z) - FlashSloth: Lightning Multimodal Large Language Models via Embedded Visual Compression [76.01465333271229]
マルチモーダルな大言語モデル(MLLM)は、実用的な用途において、スロットのように振る舞う。
近年の取り組みは、より効率よく小さなMLLMを構築することに集中しているが、視覚トークンの多さは、実際のスピードアップを制限している。
本稿ではFlashSlothと呼ばれる強力で高速な小型MLLMを提案する。
論文 参考訳(メタデータ) (2024-12-05T16:34:07Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。