論文の概要: Skipping Computations in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2410.09454v1
- Date: Sat, 12 Oct 2024 09:21:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 14:14:38.065185
- Title: Skipping Computations in Multimodal LLMs
- Title(参考訳): マルチモーダルLDMにおけるスキッピング計算
- Authors: Mustafa Shukor, Matthieu Cord,
- Abstract要約: 本研究では,マルチモーダル大言語モデル(MLLM)における推論時の冗長性について検討する。
ブロック全体,FFN,自己保持層をスキップするなど,計算をスキップするさまざまな手法を提案する。
本研究は,推定時に大量の計算を回避できることを実証した。
- 参考スコア(独自算出の注目度): 63.29737699997859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable success in both textual and multimodal domains. However, this success often comes with substantial computational costs, particularly when handling lengthy sequences of multimodal inputs. This has sparked many efforts focusing on enhancing efficiency during training and inference. In this study, we investigate the computation redundancy in Multimodal Large Language Models (MLLMs) during inference. We propose different methods to skip computations, such as skipping entire blocks, FFN or self-attention (SA) layers. Additionally, we explore parallelizing certain layers, such as FFN and SA layers. Our findings validate that (1) significant amount of computations can be avoided at inference time, especially for tasks such as Visual Question Answering (VQA). (2) Skipping computations during training can recover 97% of the original performance, even when skipping half of the blocks or removing 70% of the weights. Alternatively, (3) properly training with smaller LLMs can yield comparable performance to LLMs 2 or 3 times larger. To conclude, we extend our investigation to recent MLLMs, such as LLaVA-1.5, showing similar observations. Our work show that there is redundant computations inside MLLMs and thus the potential for significantly improving inference costs without sacrificing performance. The code is available here: https://github.com/mshukor/ima-lmms.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストとマルチモーダルドメインの両方で顕著な成功を収めている。
しかし、この成功は、特にマルチモーダル入力の長いシーケンスを扱う場合、かなりの計算コストが伴うことが多い。
これにより、トレーニングや推論の効率向上に重点を置く多くの取り組みが引き起こされた。
本研究では,マルチモーダル言語モデル(MLLM)における推論時の計算冗長性について検討する。
ブロック全体,FFN層,自己注意層(SA層)をスキップするなど,計算をスキップするさまざまな手法を提案する。
さらに、FFNやSAといった特定のレイヤの並列化についても検討する。
その結果,(1)視覚質問応答 (VQA) などのタスクにおいて, 推論時に大量の計算を回避できることが確認された。
2) ブロックの半分をスキップしたり重量の70%を取り除いたりしても, トレーニング中のスキャッピング計算は元のパフォーマンスの97%を回復することができる。
あるいは、(3) より小さな LLM で適切にトレーニングすることで、LLM の 2 倍または 3 倍の性能が得られる。
結論として,LLaVA-1.5 などの最近の MLLM にも同様の観測結果が得られた。
本研究は,MLLMの内部に冗長計算が存在することを示し,性能を犠牲にすることなく,推論コストを大幅に改善する可能性を示した。
コードは、https://github.com/mshukor/ima-lmms.com/で入手できる。
関連論文リスト
- $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - The Impact of Quantization on Retrieval-Augmented Generation: An Analysis of Small LLMs [2.6968321526169503]
学習後の量子化は、Large Language Models (LLM) の計算需要を減らすが、その能力の一部を弱める可能性がある。
本稿では、量子化がより小さなLLMの検索強化生成(RAG)能力にどのように影響するかを考察する。
この結果から, 7B LLM がそのタスクをうまく実行した場合, 量子化ではその性能や長文推論能力が損なわれないことが判明した。
論文 参考訳(メタデータ) (2024-06-10T08:23:52Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Self-Selected Attention Span for Accelerating Large Language Model Inference [10.305434265471938]
大規模言語モデル(LLM)は困難なタスクを解くことができる。
LLMの推論計算は、新しいトークンを生成する際に出席しなければならないトークンの数が増えるため、非常に非効率である。
LLMの問題解決能力を利用して、推論時間の効率を最適化する。
論文 参考訳(メタデータ) (2024-04-14T19:36:04Z) - FlattenQuant: Breaking Through the Inference Compute-bound for Large
Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。
我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文 参考訳(メタデータ) (2024-02-28T02:00:34Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。