論文の概要: Learning Free Token Reduction for Multi-Modal LLM
- arxiv url: http://arxiv.org/abs/2501.17391v1
- Date: Wed, 29 Jan 2025 02:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:55:09.506032
- Title: Learning Free Token Reduction for Multi-Modal LLM
- Title(参考訳): マルチモードLDMの学習自由化
- Authors: Zihui Zhao, Yingxin Li, Yang Li,
- Abstract要約: VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
しかし、それらの実践的な展開は、しばしば高い計算コストと長期の推論時間によって制約される。
本稿では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
- 参考スコア(独自算出の注目度): 3.4026156483879517
- License:
- Abstract: Vision-Language Models (VLMs) have achieved remarkable success across a range of multimodal tasks; however, their practical deployment is often constrained by high computational costs and prolonged inference times. Since the vision modality typically carries more information than the text modality, compressing visual prompts offers a promising solution to alleviate these challenges. Existing approaches predominantly focus on refining model architectures or directly reducing the number of visual tokens. However, these methods often compromise inference performance due to a lack of consideration for the unique spatial and temporal characteristics of visual data. In this work, we propose a token compression paradigm that operates on both spatial and temporal dimensions. Our approach includes a learning-free, plug-and-play compression pipeline that can be seamlessly integrated into most Multimodal Large Language Model (MLLM) frameworks. By leveraging this method, we enhance the model inference capability while simultaneously reducing its computational cost. Experimental results on the Video-QA task demonstrate the effectiveness of the proposed approach, showcasing significant improvements in efficiency without sacrificing performance.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
視覚のモダリティは典型的にはテキストのモダリティよりも多くの情報を持っているため、視覚的なプロンプトの圧縮はこれらの課題を軽減するための有望な解決策を提供する。
既存のアプローチは、主にモデルアーキテクチャの精細化や、直接的に視覚トークンの数を減らすことに重点を置いています。
しかし,これらの手法は,視覚データの空間的特徴や時間的特性が考慮されていないため,推論性能を損なうことが多い。
本研究では,空間次元と時間次元の両方で動作するトークン圧縮パラダイムを提案する。
当社のアプローチには,MLLM(Multimodal Large Language Model)フレームワークにシームレスに統合可能な,学習のないプラグイン・アンド・プレイ圧縮パイプラインが含まれています。
この手法を利用することで、計算コストを同時に削減しつつ、モデル推論能力を向上する。
ビデオQAタスクの実験結果は,提案手法の有効性を実証し,性能を犠牲にすることなく効率を大幅に向上することを示した。
関連論文リスト
- ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs [14.533229831531168]
MLLMの効率向上を目的とした新しい手法であるTRIM(CLIP Metric)を導入する。
視覚質問応答(VQA)タスクにおける人間の注意パターンにインスパイアされたTRIMは、画像トークンの選択と縮小について、新たな視点を示す。
その結果,一貫した性能を維持しながら計算オーバーヘッドを著しく低減した。
論文 参考訳(メタデータ) (2024-09-17T08:56:27Z) - Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving [9.900979396513687]
MLLM(Multimodal large language model)は、自律運転システムにおけるシーン理解の促進に顕著な可能性を示している。
1つの大きな制限は、細粒度で長文の視覚情報を取得するのに必要な多数の視覚トークンから生じる。
本稿では,視覚トークンの総数を大幅に削減し,最も有能な情報を保存するためのビデオトークンスペーシフィケーション(VTS)を提案する。
論文 参考訳(メタデータ) (2024-09-16T05:31:01Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - PerceptionGPT: Effectively Fusing Visual Perception into LLM [31.34127196055722]
視覚入力と大言語モデル(LLM)の統合は、多モーダル機能において顕著な進歩をもたらし、視覚的大言語モデル(VLLM)がもたらされた。
本稿では,視覚的知覚能力を持つVLLMを効率よく装備するPerceptionGPTという新しいエンドツーエンドフレームワークを提案する。
本手法は,視覚出力を離散トークンとして定式化する従来の手法によるトレーニングの難しさを著しく軽減する。
論文 参考訳(メタデータ) (2023-11-11T16:59:20Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。