論文の概要: freePruner: A Training-free Approach for Large Multimodal Model Acceleration
- arxiv url: http://arxiv.org/abs/2411.15446v1
- Date: Sat, 23 Nov 2024 04:25:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:42.691765
- Title: freePruner: A Training-free Approach for Large Multimodal Model Acceleration
- Title(参考訳): freePruner: 大規模マルチモーダルモデルアクセラレーションのためのトレーニング不要アプローチ
- Authors: Bingxin Xu, Yuzhang Shang, Yunhao Ge, Qian Lou, Yan Yan,
- Abstract要約: freePrunerはトレーニング不要のトークン削減アプローチで、追加のトレーニングなしでオープンソースLMMに直接適用することができる。
実験によると、FreePrunerはメインストリームの視覚的質問応答ベンチマークで同等のパフォーマンスを維持しながら、2倍の高速化を実現している。
- 参考スコア(独自算出の注目度): 23.561529800086454
- License:
- Abstract: Large Multimodal Models (LMMs) have demonstrated impressive capabilities in visual-language tasks but face significant deployment challenges due to their high computational demands. While recent token reduction methods show promise for accelerating LMMs, they typically require extensive retraining or fine-tuning, making them impractical for many state-of-the-art models, especially those with proprietary training data. We propose freePruner, a training-free token reduction approach that can be directly applied to any open-source LMM without additional training. Unlike existing methods that rely heavily on token merging operations, freePruner employs a two-stage token selection strategy: (1) identifying pivotal tokens that capture high-level semantic information using our designed contribution degree metric, and (2) selecting complementary tokens that preserve essential low-level visual details through attention pattern analysis. Extensive experiments demonstrate that freePruner achieves 2x acceleration while maintaining comparable performance across mainstream visual question-answering benchmarks in the training-free setting. Moreover, freePruner is orthogonal to and can be combined with other post-training acceleration techniques, such as post-training quantization, providing a practical solution for efficient LMM deployment.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は視覚言語タスクにおいて顕著な能力を示してきたが、高い計算要求のため、大きな展開課題に直面している。
最近のトークン削減手法はLMMの加速を約束するが、通常は広範囲のトレーニングや微調整を必要とするため、多くの最先端モデル、特にプロプライエタリなトレーニングデータでは実用的ではない。
我々は,任意のオープンソース LMM に直接適用可能な,トレーニング不要なトークン削減手法である freePruner を提案する。
トークンマージ操作に大きく依存する既存の方法とは違って、FreePrunerでは、(1)設計したコントリビューション度メトリックを使用して高レベルのセマンティック情報をキャプチャするピボットトークンを識別し、(2)注意パターン分析を通じて重要な低レベルの視覚的詳細を保持する補完トークンを選択するという、2段階のトークン選択戦略を採用している。
大規模な実験では、FreePrunerが2倍の高速化を実現し、トレーニングフリー環境では主流の視覚的質問応答ベンチマークに匹敵するパフォーマンスを維持している。
さらに、FreePrunerは直交的であり、トレーニング後の量子化のような他のトレーニング後の加速技術と組み合わせることで、効率的なLMMデプロイメントのための実用的なソリューションを提供する。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。
既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。
本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training [15.462969044840868]
LW-FedMMLは,学習プロセスを複数の段階に分解する階層型多モーダル学習手法である。
提案手法の有効性を検証するため,様々なFLおよびマルチモーダル学習環境にまたがる広範囲な実験を行った。
具体的には、LW-FedMMLはメモリ使用量を最大2.7Times$、計算処理(FLOP)を2.4times$、通信総コストを2.3times$に削減する。
論文 参考訳(メタデータ) (2024-07-22T07:06:17Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - Unsupervised Solution Operator Learning for Mean-Field Games via Sampling-Invariant Parametrizations [7.230928145936957]
我々はMFGソリューション演算子を学習するための新しいフレームワークを開発する。
我々のモデルはMFGインスタンスを入力として取り出し、1つのフォワードパスで解を出力する。
離散化フリーであり、高次元MFGの学習演算子に適している。
論文 参考訳(メタデータ) (2024-01-27T19:07:49Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。