Fugu-MT 論文翻訳(概要): AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning

論文の概要: AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning

arxiv url: http://arxiv.org/abs/2412.03248v1
Date: Wed, 04 Dec 2024 11:47:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.650748
Title: AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning
Title（参考訳）: AIM:Token MergingとPruningによる多モードLCMの適応推論
Authors: Yiwu Zhong, Zhuoming Liu, Yin Li, Liwei Wang,
Abstract要約: マルチモーダルLLMのための学習自由適応推論法を提案する。最小限の設計により,本手法はビデオと画像の両方に応用できる。同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
参考スコア（独自算出の注目度）: 19.68349294206012
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have enabled the creation of multi-modal LLMs that exhibit strong comprehension of visual data such as images and videos. However, these models usually rely on extensive visual tokens from visual encoders, leading to high computational demands, which limits their applicability in resource-constrained environments and for long-context tasks. In this work, we propose a training-free adaptive inference method for multi-modal LLMs that can accommodate a broad range of efficiency requirements with a minimum performance drop. Our method consists of a) iterative token merging based on embedding similarity before LLMs, and b) progressive token pruning within LLM layers based on multi-modal importance. With a minimalist design, our method can be applied to both video and image LLMs. Extensive experiments on diverse video and image benchmarks demonstrate that, our method substantially reduces computation load (e.g., a $\textbf{7-fold}$ reduction in FLOPs) while preserving the performance of video and image LLMs. Further, under a similar computational cost, our method outperforms the state-of-the-art methods in long video understanding (e.g., $\textbf{+4.6}$ on MLVU). Additionally, our in-depth analysis provides insights into token redundancy and LLM layer behaviors, offering guidance for future research in designing efficient multi-modal LLMs. Our code will be available at https://github.com/LaVi-Lab/AIM.
Abstract（参考訳）: 大規模言語モデル(LLM)は、画像やビデオなどの視覚的データの強力な理解を示すマルチモーダルLLMの作成を可能にする。しかしながら、これらのモデルは通常、ビジュアルエンコーダからの広範囲な視覚トークンに依存しており、高い計算要求をもたらし、リソース制約のある環境や長いコンテキストタスクにおける適用性を制限している。本研究では,マルチモーダルLLMの学習自由適応推論手法を提案する。私たちの方法は a) LLMの前の埋め込み類似性に基づく反復的トークンのマージ b)マルチモーダル重要度に基づくLCM層内でのプログレッシブトークンプルーニング最小限の設計により,本手法はビデオと画像の両方に応用できる。多様なビデオおよび画像のベンチマーク実験により,ビデオおよび画像LLMの性能を保ちながら,計算負荷(例えば,$\textbf{7-fold}$ FLOPs)を大幅に低減することを示した。さらに、同様の計算コストで、長大なビデオ理解における最先端手法(例えば、MLVUの$\textbf{+4.6}$)より優れる。さらに,トークンの冗長性とLCM層の挙動に関する知見を提供し,効率的なマルチモーダルLCMの設計における今後の研究の指針を提供する。私たちのコードはhttps://github.com/LaVi-Lab/AIM.comで公開されます。

関連論文リスト

OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。 OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
TS-LLaVA: Constructing Visual Tokens through Thumbnail-and-Sampling for Training-Free Video Large Language Models [52.590072198551944]
近年の多モーダル言語モデル(LLM)の進歩は,多モーダルな内容を理解する上で大きな成功を収めている。ビデオ理解タスクでは、高品質でキュレートされたビデオテキストペアリングデータの不足により、トレーニングベースのビデオLLMの構築が困難である。本研究では,トレーニングフリーのビデオ LLM 構築における既存の圧縮戦略の限界について検討する。
論文参考訳（メタデータ） (2024-11-17T13:08:29Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,LLM推論を品質を損なうことなく高速化するためのパラダイムとして広く用いられている。本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。実験により,SWIFTは生成したテキストの元の分布を保ちながら,1.3x-1.6x以上の高速化を実現することができることを示した。
論文参考訳（メタデータ） (2024-10-09T14:15:30Z)
Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文参考訳（メタデータ） (2024-05-22T16:25:03Z)
From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文参考訳（メタデータ） (2024-04-18T02:43:37Z)
ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。 LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文参考訳（メタデータ） (2024-03-30T10:11:26Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
LLaFS: When Large Language Models Meet Few-Shot Segmentation [32.86287519276783]
LLaFSは,大規模言語モデル(LLM)を数発のセグメンテーションで活用するための最初の試みである。 LLaFSは、アノテーション付きサポート画像からの制限された情報とバイアスのある情報のみに依存する従来の数ショットセグメンテーション法とは対照的に、LLMを直接使用して数ショットで画像のセグメンテーションを行う。 LLaFSは複数のデータセットで最先端の結果を達成し、数ショットのコンピュータビジョンタスクにLLMを使用する可能性を示している。
論文参考訳（メタデータ） (2023-11-28T16:31:27Z)
InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。 InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-11-12T09:58:16Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)
LMEye: An Interactive Perception Network for Large Language Models [43.160353427015025]
LMEyeは、プレイ・アンド・プラグの対話型知覚ネットワークを備えた人間のような眼である。大規模言語モデルと外部視覚情報との動的相互作用を可能にする。様々なマルチモーダルタスクにおけるゼロショット性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-05-05T17:27:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。