論文の概要: ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task
- arxiv url: http://arxiv.org/abs/2503.04444v1
- Date: Thu, 06 Mar 2025 14:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:59:25.267521
- Title: ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task
- Title(参考訳): ToFu: マルチモーダル・マルチパッチ・マルチイメージタスクのためのフュージョンによるビジュアルトークン削減
- Authors: Vittorio Pippi, Matthieu Guillaumin, Silvia Cascianelli, Rita Cucchiara, Maximilian Jaritz, Loris Bazzani,
- Abstract要約: ToFuは視覚的エンコーダに依存しない,トレーニング不要な,高解像度でマルチイメージなタスクのためのToken Fusion戦略を提案する。
LLaVA-Interleave Benchは,マルチイメージタスクに挑戦する手法である。
- 参考スコア(独自算出の注目度): 34.269081635534526
- License:
- Abstract: Large Multimodal Models (LMMs) are powerful tools that are capable of reasoning and understanding multimodal information beyond text and language. Despite their entrenched impact, the development of LMMs is hindered by the higher computational requirements compared to their unimodal counterparts. One of the main causes of this is the large amount of tokens needed to encode the visual input, which is especially evident for multi-image multimodal tasks. Recent approaches to reduce visual tokens depend on the visual encoder architecture, require fine-tuning the LLM to maintain the performance, and only consider single-image scenarios. To address these limitations, we propose ToFu, a visual encoder-agnostic, training-free Token Fusion strategy that combines redundant visual tokens of LMMs for high-resolution, multi-image, tasks. The core intuition behind our method is straightforward yet effective: preserve distinctive tokens while combining similar ones. We achieve this by sequentially examining visual tokens and deciding whether to merge them with others or keep them as separate entities. We validate our approach on the well-established LLaVA-Interleave Bench, which covers challenging multi-image tasks. In addition, we push to the extreme our method by testing it on a newly-created benchmark, ComPairs, focused on multi-image comparisons where a larger amount of images and visual tokens are inputted to the LMMs. Our extensive analysis, considering several LMM architectures, demonstrates the benefits of our approach both in terms of efficiency and performance gain.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、テキストや言語を超えた多モーダル情報の推論と理解が可能な強力なツールである。
影響が強いにもかかわらず、LMMの開発は、一方的な要求よりも高い計算要求によって妨げられている。
主な原因の1つは、視覚入力をエンコードするために必要な大量のトークンであり、これは特にマルチイメージのマルチモーダルタスクにおいて明らかである。
視覚トークンを減らすための最近のアプローチは、ビジュアルエンコーダアーキテクチャに依存しており、パフォーマンスを維持するためにLLMを微調整する必要がある。
これらの制約に対処するために,高解像度でマルチイメージなタスクに対して,LMMの冗長な視覚トークンを組み合わせた,視覚的エンコーダに依存しない,トレーニング不要なToken Fusion戦略であるToFuを提案する。
我々の手法の背後にある中核的な直感は単純だが有効である:類似したトークンを組み合わせながら特異なトークンを保存する。
視覚トークンを逐次検査し、他のトークンとマージするか、別のエンティティとして保持するかを決定することで、これを実現する。
LLaVA-Interleave Benchは,マルチイメージタスクに挑戦する手法である。
さらに、新たに作成されたベンチマークであるComPairsでテストし、大量の画像と視覚トークンがLMMに入力されるマルチイメージ比較に焦点を当てて、極端にメソッドにプッシュする。
複数のLMMアーキテクチャを考慮すると、我々は効率と性能の両面でアプローチの利点を実証している。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization [49.931663904599205]
研究者は、インコンテキスト学習機能を備えた大規模マルチモーダルモデルを開発する技術を開発した。
既存のLMMは、マルチモーダルなデモンストレーションで視覚的コンテキストを効果的に活用せず、単にテキストパターンに従う。
本稿では,マルチモーダルな実演構築の伝統的なパラダイムを破るために,記号記述直接選好最適化(SymDPO)を提案する。
論文 参考訳(メタデータ) (2024-11-17T08:29:14Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。