論文の概要: TokenPacker: Efficient Visual Projector for Multimodal LLM
- arxiv url: http://arxiv.org/abs/2407.02392v2
- Date: Mon, 22 Jul 2024 12:55:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 00:42:21.545658
- Title: TokenPacker: Efficient Visual Projector for Multimodal LLM
- Title(参考訳): TokenPacker:マルチモーダルLLMのための効率的なビジュアルプロジェクタ
- Authors: Wentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jianke Zhu, Lei Zhang,
- Abstract要約: ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 20.915458668081353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual projector serves as an essential bridge between the visual encoder and the Large Language Model (LLM) in a Multimodal LLM (MLLM). Typically, MLLMs adopt a simple MLP to preserve all visual contexts via one-to-one transformation. However, the visual tokens are redundant and can be considerably increased when dealing with high-resolution images, impairing the efficiency of MLLMs significantly. Some recent works have introduced resampler or abstractor to reduce the number of resulting visual tokens. Unfortunately, they fail to capture finer details and undermine the visual reasoning capabilities of MLLMs. In this work, we propose a novel visual projector, which adopts a coarse-to-fine scheme to inject the enriched characteristics to generate the condensed visual tokens. In specific, we first interpolate the visual features as a low-resolution point query, providing the overall visual representation as the foundation. Then, we introduce a region-to-point injection module that utilizes high-resolution, multi-level region-based cues as fine-grained reference keys and values, allowing them to be fully absorbed within the corresponding local context region. This step effectively updates the coarse point query, transforming it into an enriched one for the subsequent LLM reasoning. Extensive experiments demonstrate that our approach compresses the visual tokens by 75%~89%, while achieves comparable or even better performance across diverse benchmarks with significantly higher efficiency. The source codes can be found at https://github.com/CircleRadon/TokenPacker.
- Abstract(参考訳): ビジュアルプロジェクタは、マルチモーダル LLM (MLLM) において、ビジュアルエンコーダとLarge Language Model (LLM) の間に必須のブリッジとして機能する。
通常、MLLMは1対1変換によって全ての視覚的コンテキストを保存するために単純なMLPを採用する。
しかし、視覚トークンは冗長であり、高解像度画像を扱う場合には大幅に増大し、MLLMの効率を著しく損なう。
いくつかの最近の研究は、結果として生じる視覚トークンの数を減らすために、リサンプラー(resampler)や抽象体を導入している。
残念なことに、より細部を捉えることができず、MLLMの視覚的推論能力を損なう。
本研究では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗い微細なスキームを取り入れた新しいビジュアルプロジェクタを提案する。
具体的には、まず視覚的特徴を低解像度の点問合せとして補間し、全体の視覚的表現を基礎として提供する。
次に,高分解能で多レベルな領域ベースキューを微細な参照キーや値として利用する領域間インジェクションモジュールを導入し,対応するローカルコンテキスト領域に完全に吸収できるようにする。
このステップは、粗いポイントクエリを効果的に更新し、後続のLCM推論のために強化されたクエリに変換する。
広汎な実験により、我々の手法は視覚トークンを75%〜89%圧縮する一方で、非常に高い効率で様々なベンチマークで同等またはさらに優れた性能を実現していることが示された。
ソースコードはhttps://github.com/CircleRadon/TokenPackerにある。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models [28.019592576500113]
本研究では,MLLM内の視覚言語意味の流れを解釈し,プロジェクタモジュールについて検討する。
その結果,圧縮プロジェクタはオブジェクトや属性などの限られた意味概念の集合に視覚パッチを抽象化し,結果として「二重抽象化」現象が生じることがわかった。
本稿では,プロジェクタによるパッチレベルで視覚トークン番号を圧縮する「抽象化からのデカップル圧縮(Decouple Compression from Abstraction, DeCo)」について,重要な知見を提案する。
論文 参考訳(メタデータ) (2024-05-31T16:31:38Z) - Visual Perception by Large Language Model's Weights [34.34876575183736]
本稿では,視覚情報をモデル重みとして表現するパラメータ空間アライメントパラダイムを提案する。
各入力画像に対して、視覚的特徴を抽出し、特徴を知覚重みに変換し、知覚重みとLLMの重みをマージする視覚エンコーダを用いる。
このようにして、LLMの入力は視覚トークンを必要としないため、入力シーケンスの長さが小さくなり、効率が大幅に向上する。
論文 参考訳(メタデータ) (2024-05-30T17:59:47Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。
我々のVTWアプローチは、様々なマルチモーダルタスクにおいて、計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。
実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文 参考訳(メタデータ) (2024-05-03T08:43:06Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。