Fugu-MT 論文翻訳(概要): TokenPacker: Efficient Visual Projector for Multimodal LLM

論文の概要: TokenPacker: Efficient Visual Projector for Multimodal LLM

arxiv url: http://arxiv.org/abs/2407.02392v2
Date: Mon, 22 Jul 2024 12:55:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 00:42:21.545658
Title: TokenPacker: Efficient Visual Projector for Multimodal LLM
Title（参考訳）: TokenPacker:マルチモーダルLLMのための効率的なビジュアルプロジェクタ
Authors: Wentong Li, Yuqian Yuan, Jian Liu, Dongqi Tang, Song Wang, Jianke Zhu, Lei Zhang,
Abstract要約: ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
参考スコア（独自算出の注目度）: 20.915458668081353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The visual projector serves as an essential bridge between the visual encoder and the Large Language Model (LLM) in a Multimodal LLM (MLLM). Typically, MLLMs adopt a simple MLP to preserve all visual contexts via one-to-one transformation. However, the visual tokens are redundant and can be considerably increased when dealing with high-resolution images, impairing the efficiency of MLLMs significantly. Some recent works have introduced resampler or abstractor to reduce the number of resulting visual tokens. Unfortunately, they fail to capture finer details and undermine the visual reasoning capabilities of MLLMs. In this work, we propose a novel visual projector, which adopts a coarse-to-fine scheme to inject the enriched characteristics to generate the condensed visual tokens. In specific, we first interpolate the visual features as a low-resolution point query, providing the overall visual representation as the foundation. Then, we introduce a region-to-point injection module that utilizes high-resolution, multi-level region-based cues as fine-grained reference keys and values, allowing them to be fully absorbed within the corresponding local context region. This step effectively updates the coarse point query, transforming it into an enriched one for the subsequent LLM reasoning. Extensive experiments demonstrate that our approach compresses the visual tokens by 75%~89%, while achieves comparable or even better performance across diverse benchmarks with significantly higher efficiency. The source codes can be found at https://github.com/CircleRadon/TokenPacker.
Abstract（参考訳）: ビジュアルプロジェクタは、マルチモーダル LLM (MLLM) において、ビジュアルエンコーダとLarge Language Model (LLM) の間に必須のブリッジとして機能する。通常、MLLMは1対1変換によって全ての視覚的コンテキストを保存するために単純なMLPを採用する。しかし、視覚トークンは冗長であり、高解像度画像を扱う場合には大幅に増大し、MLLMの効率を著しく損なう。いくつかの最近の研究は、結果として生じる視覚トークンの数を減らすために、リサンプラー(resampler)や抽象体を導入している。残念なことに、より細部を捉えることができず、MLLMの視覚的推論能力を損なう。本研究では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗い微細なスキームを取り入れた新しいビジュアルプロジェクタを提案する。具体的には、まず視覚的特徴を低解像度の点問合せとして補間し、全体の視覚的表現を基礎として提供する。次に,高分解能で多レベルな領域ベースキューを微細な参照キーや値として利用する領域間インジェクションモジュールを導入し,対応するローカルコンテキスト領域に完全に吸収できるようにする。このステップは、粗いポイントクエリを効果的に更新し、後続のLCM推論のために強化されたクエリに変換する。広汎な実験により、我々の手法は視覚トークンを75%〜89%圧縮する一方で、非常に高い効率で様々なベンチマークで同等またはさらに優れた性能を実現していることが示された。ソースコードはhttps://github.com/CircleRadon/TokenPackerにある。

関連論文リスト

Patch-as-Decodable-Token: Towards Unified Multi-Modal Vision Tasks in MLLMs [88.68484904214142]
Patch-as-Decodable Token (PaDT)を導入し、テキストと多様な視覚出力を生成する。 PaDTの中心は、クエリイメージのビジュアルパッチ埋め込みから派生したVisual Reference Tokens (VRT)である。 MLLMモデルと比較しても,PaDTは最先端の性能を一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-10-02T12:23:57Z)
LLaVA-SP: Enhancing Visual Representation with Visual Spatial Tokens for MLLMs [4.478610052538001]
LLaVA-SPは、視覚的表現を高めるために、元の視覚的トークンに6つの空間的視覚的トークンのみを付加する。 LLaVA-SP-CroppingとLLaVA-SP-Poolingは適応的なプールによってグローバルなセマンティクスをキャプチャする。
論文参考訳（メタデータ） (2025-07-01T07:20:11Z)
Slot-MLLM: Object-Centric Visual Tokenization for Multimodal LLM [21.967692616735196]
マルチモーダル大規模言語モデル (MLLM) は、人工知能の実現において重要なアプローチとして登場した。 MLLMに特化してSlot Attentionに基づくオブジェクト中心型ビジュアルトークンを提案する。この研究は、MLLMや地中自然画像を用いたオブジェクト中心のスロットアテンションの実現可能性の最初の実証である。
論文参考訳（メタデータ） (2025-05-23T10:43:45Z)
Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。 WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文参考訳（メタデータ） (2025-04-05T02:32:58Z)
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。 20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文参考訳（メタデータ） (2025-03-27T09:31:35Z)
Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation [109.5893580175657]
近年,MLLMの開発における標準的な実践は,視覚エンコーダの機能をLLMに供給し,自然言語による指導を施すことである。このアプローチは、しばしばモデルが言語理解に傾き、データに存在するリッチな視覚知覚信号を損なう。本稿では,視覚知識をエキスパートビジョンエンコーダからLLMの隠れ表現に注入する最初のアプローチであるVisPer-LMを提案する。
論文参考訳（メタデータ） (2024-12-12T18:55:18Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文参考訳（メタデータ） (2024-10-30T15:05:17Z)
Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation [10.468784974994465]
マルチモーダル言語モデル(MLLM)におけるプロジェクタの役割プロジェクタに関する現在の調査では、効率を改善するために視覚トークンの数を減らすことに重点を置いている。この問題に対処するために空間認識効率プロジェクタ(SAEP)を提案する。
論文参考訳（メタデータ） (2024-10-14T09:25:09Z)
Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文参考訳（メタデータ） (2024-10-08T16:13:24Z)
Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。 MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文参考訳（メタデータ） (2024-05-22T16:25:03Z)
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文参考訳（メタデータ） (2024-05-09T14:38:53Z)
Auto-Encoding Morph-Tokens for Multimodal LLM [151.2618346912529]
そこで本稿では,MLLMにテキスト生成を指示する視覚的プロンプトとして機能する。実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
論文参考訳（メタデータ） (2024-05-03T08:43:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。