論文の概要: Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2408.15556v1
- Date: Wed, 28 Aug 2024 06:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:03:09.248881
- Title: Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models
- Title(参考訳): Divide, Conquer and Combine:マルチモーダル大言語モデルにおける高解像度画像認識のための学習自由フレームワーク
- Authors: Wenbin Wang, Liang Ding, Minyan Zeng, Xiabin Zhou, Li Shen, Yong Luo, Dacheng Tao,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、高解像度(HR)画像の複雑な詳細を認識し解釈するのに苦労する。
HR-Benchは、4K&8K画像上でMLLMの性能を厳格に評価する最初の意図的に設計されたベンチマークである。
HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$2$)を提案する。
- 参考スコア(独自算出の注目度): 57.280853324896306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have experienced significant advancements recently, but still struggle to recognize and interpret intricate details in high-resolution (HR) images effectively. While state-of-the-art (SOTA) MLLMs claim to process images at 4K resolution, existing MLLM benchmarks only support up to 2K, leaving the capabilities of SOTA models on true HR images largely untested. Furthermore, existing methods for enhancing HR image perception in MLLMs rely on computationally expensive visual instruction tuning. To address these limitations, we introduce HR-Bench, the first deliberately designed benchmark to rigorously evaluate MLLM performance on 4K&8K images. Through extensive experiments, we demonstrate that while downsampling HR images leads to vision information loss, leveraging complementary modalities, e.g., text, can effectively compensate for this loss. Building upon this insight, we propose Divide, Conquer and Combine (DC$^2$), a novel training-free framework for enhancing MLLM perception of HR images. DC$^2$ follows a three-staged approach: 1) Divide: recursively partitioning the HR image into patches and merging similar patches to minimize computational overhead, 2) Conquer: leveraging the MLLM to generate accurate textual descriptions for each image patch, and 3) Combine: utilizing the generated text descriptions to enhance the MLLM's understanding of the overall HR image. Extensive experiments show that: 1) the SOTA MLLM achieves 63% accuracy, which is markedly lower than the 87% accuracy achieved by humans on HR-Bench; 2) our DC$^2$ brings consistent and significant improvements (a relative increase of +6% on HR-Bench and +8% on general multimodal benchmarks). The benchmark and code will be released to facilitate the multimodal R&D community.
- Abstract(参考訳): MLLM(Multimodal large language model)は近年顕著な進歩を遂げているが、高解像度(HR)画像の複雑な詳細を認識・解釈するのに苦慮している。
最先端(SOTA)のMLLMは4K解像度で画像を処理しているが、既存のMLLMベンチマークは2Kまでしかサポートしていない。
さらに、MLLMにおけるHR画像知覚を向上させる既存の手法は、計算コストのかかるビジュアルインストラクションチューニングに依存している。
これらの制約に対処するために,4K&8K画像上でMLLM性能を厳格に評価する最初の意図的に設計されたベンチマークであるHR-Benchを紹介する。
広範にわたる実験により、HR画像のダウンサンプル化が視覚情報損失を招き、例えばテキストなどの相補的なモダリティを活用することにより、この損失を効果的に補うことができることを示した。
この知見に基づいて、HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$^2$)を提案する。
DC$^2$は3段階のアプローチに従う。
1) 分割: HRイメージをパッチに再帰的に分割し、同様のパッチをマージして計算オーバーヘッドを最小限にする。
2)コンバータ:MLLMを利用して各画像パッチの正確なテキスト記述を生成し、
3) 組み合わせ: 生成したテキスト記述を利用して,全体のHR画像に対するMLLMの理解を深める。
大規模な実験は、こう示しています。
1)SOTA MLLMの精度は63%であり,HR-Benchの精度は87%よりも著しく低い。
2) DC$^2$は、一貫性と大幅な改善をもたらす(HR-Benchでは+6%、一般的なマルチモーダルベンチマークでは+8%)。
ベンチマークとコードは、マルチモーダルなR&Dコミュニティを促進するためにリリースされる。
関連論文リスト
- MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Composed Image Retrieval (CIR) は、ターゲット画像の検索にバイモーダル(image+text)クエリを利用する、難しい視覚言語タスクである。
本稿では,両者の相違に対処するための2段階の枠組みを提案する。
MoTaDualは、トレーニング時間と計算コストを低く保ちながら、4つの広く使用されているZS-CIRベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models [49.070801221350486]
マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。
本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-09T17:25:47Z) - Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large
Language Models [84.78513908768011]
MRA(Mixture-of-Resolution Adaptation)と呼ばれるMLLMの新規かつ効率的な手法を提案する。
MRAは解像度の異なる画像に対して2つの視覚経路を採用し、高解像度の視覚情報を低解像度の経路に埋め込む。
MRAを検証するために、LLaVAと呼ばれる最近のMLLMに適用し、新しいモデルLLaVA-HRと呼ぶ。
論文 参考訳(メタデータ) (2024-03-05T14:31:24Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - The Instinctive Bias: Spurious Images lead to Illusion in MLLMs [34.91795817316696]
MLLMは、非常に関連性が高いが、応答に矛盾する画像で構成されている。
本稿では,スプリアス画像の視覚錯視レベルを評価する最初のベンチマークである相関QAを提案する。
我々は9つの主流MLLMについて徹底的な分析を行い、これらの本能バイアスが様々な程度に普遍的に悩まされていることを指摘した。
論文 参考訳(メタデータ) (2024-02-06T06:48:46Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - HiLM-D: Towards High-Resolution Understanding in Multimodal Large
Language Models for Autonomous Driving [47.274696401306514]
HiLM-D は ROLISP タスクのための MLLM に HR 情報を組み込む効率的な手法である。
実験の結果,HiLM-DはMLLMよりも顕著な優位性を示し,キャプションではBLEU-4が4.8%,検出ではmIoUが17.2%改善した。
論文 参考訳(メタデータ) (2023-09-11T01:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。