論文の概要: Quadratic Is Not What You Need For Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2410.06169v1
- Date: Tue, 08 Oct 2024 16:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:33:25.157696
- Title: Quadratic Is Not What You Need For Multimodal Large Language Models
- Title(参考訳): マルチモーダルな大規模言語モデルには必要ではない
- Authors: Phu Pham, Wentian Zhao, Kun Wan, Yu-Jhe Li, Zeliang Zhang, Daniel Miranda, Ajinkya Kale, Chenliang Xu,
- Abstract要約: 本研究では,マルチモーダル大言語モデル(MLLM)の視覚成分の計算冗長性について検討する。
刈り取り後のLLMの計算量は、視覚トークンの増加に伴って2次ではなく、線形である。
この発見は、MLLMがより密集した視覚トークンを組み込む可能性を開く。
- 参考スコア(独自算出の注目度): 36.83251602759295
- License:
- Abstract: In the past year, the capabilities of Multimodal Large Language Models (MLLMs) have significantly improved across various aspects. However, constrained by the quadratic growth of computation in LLMs as the number of tokens increases, efficiency has become a bottleneck for further scaling MLLMs. Although recent efforts have been made to prune visual tokens or use more lightweight LLMs to reduce computation, the problem of quadratic growth in computation with the increase of visual tokens still persists. To address this, we propose a novel approach: instead of reducing the input visual tokens for LLMs, we focus on pruning vision-related computations within the LLMs. After pruning, the computation growth in the LLM is no longer quadratic with the increase of visual tokens, but linear. Surprisingly, we found that after applying such extensive pruning, the capabilities of MLLMs are comparable with the original one and even superior on some benchmarks with only 25% of the computation. This finding opens up the possibility for MLLMs to incorporate much denser visual tokens. Additionally, based on this finding, we further analyzed some architectural design deficiencies in existing MLLMs and proposed promising improvements. To the best of our knowledge, this is the first study to investigate the computational redundancy in the LLM's vision component of MLLMs. Code and checkpoints will be released soon.
- Abstract(参考訳): この1年間で、MLLM(Multimodal Large Language Models)の能力は様々な面で大幅に改善された。
しかし,トークン数の増加に伴い,LSMにおける計算の二次的成長に制約され,MLLMのさらなるスケーリングのボトルネックとなっている。
近年,視覚的トークンの創出や,より軽量なLCMによる計算の削減が試みられているが,視覚的トークンの増加に伴う計算の二次的成長の問題はまだ残っている。
そこで我々は,LLMの入力された視覚トークンを減らす代わりに,LLM内の視覚関連計算を抽出することに焦点をあてる,新しい手法を提案する。
刈り取り後のLLMの計算量は、視覚トークンの増加に伴って2次ではなく、線形である。
驚くべきことに、このような広範囲のプルーニングを適用した後、MLLMの能力は元のものと同等であり、計算の25%しか持たないベンチマークよりも優れていることがわかった。
この発見は、MLLMがより密集した視覚トークンを組み込む可能性を開く。
さらに, この知見に基づいて, 既存のMLLMのアーキテクチャ設計上の欠陥を解析し, 将来的な改善を提案する。
我々の知る限り、MLLMの視覚成分の計算冗長性を調べる最初の研究である。
コードとチェックポイントはまもなくリリースされる予定だ。
関連論文リスト
- TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - RLSF: Reinforcement Learning via Symbolic Feedback [11.407319705797242]
証明フィードバック(RLSF)による強化学習(Reinforcement Learning)と呼ばれる新しい微調整パラダイムを提案する。
RLSFでは、微調整されたLLMはRLエージェントと見なされ、環境は推論やドメイン知識ツールへのアクセスが可能である。
RLSFに基づくLLMの微調整は、5つの異なるアプリケーションにおいて従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T18:49:59Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Efficient Multimodal Large Language Models: A Survey [60.7614299984182]
MLLM(Multimodal Large Language Models)は、視覚的質問応答、視覚的理解、推論などのタスクにおいて顕著な性能を示す。
モデルサイズと高いトレーニングと推論コストが、MLLMのアカデミックや産業への応用を妨げている。
本調査は,効率的なMLLMの現状を包括的かつ体系的に概観するものである。
論文 参考訳(メタデータ) (2024-05-17T12:37:10Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。
我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。
実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with a Self-Critique Pipeline [42.61538071832468]
大規模言語モデル(LLM)は、人間の言語の優れた習得を示すが、数学的な問題解決を必要とする現実世界のアプリケーションでは依然として苦戦している。
LLMアライメントのフィードバック学習段階における課題に対処する自己批判パイプラインを調整します。
論文 参考訳(メタデータ) (2024-04-03T17:51:18Z) - IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。
本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。
IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文 参考訳(メタデータ) (2024-03-02T16:05:26Z) - Rethinking Interpretability in the Era of Large Language Models [76.1947554386879]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著な機能を示している。
自然言語で説明できる能力により、LLMは人間に与えられるパターンのスケールと複雑さを拡大することができる。
これらの新しい機能は、幻覚的な説明や膨大な計算コストなど、新しい課題を提起する。
論文 参考訳(メタデータ) (2024-01-30T17:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。