論文の概要: A Training-Free, Task-Agnostic Framework for Enhancing MLLM Performance on High-Resolution Images
- arxiv url: http://arxiv.org/abs/2507.10202v1
- Date: Mon, 14 Jul 2025 12:14:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.861486
- Title: A Training-Free, Task-Agnostic Framework for Enhancing MLLM Performance on High-Resolution Images
- Title(参考訳): 高解像度画像におけるMLLM性能向上のための学習不要タスク非依存フレームワーク
- Authors: Jaeseong Lee, Yeeun Choi, Heechan Choi, Hanjung Kim, Seonjoo Kim,
- Abstract要約: MLLM(Multimodal Large Language Models)は、視覚言語理解、推論、生成において顕著な能力を示す。
彼らは、高解像度の画像において、きめ細かい局所化と推論を必要とするタスクに苦労する。
本研究では,高解像度画像上でのMLLM性能向上を目的とした,学習不要でタスクに依存しない新しい2段階のフレームワークであるExtract Candidate then Predict (ECP)を提案する。
- 参考スコア(独自算出の注目度): 19.549498712690404
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable capabilities in vision-language understanding, reasoning, and generation. However, they struggle with tasks requiring fine-grained localization and reasoning in high-resolution images. This constraint stems from the fact that MLLMs are fine-tuned with fixed image resolution to align with the pre-trained image encoder used in MLLM. Consequently, feeding high-resolution images directly into MLLMs leads to poor generalization due to a train-test resolution discrepancy, while downsampling these images-although ensuring consistency-compromises fine-grained visual details and ultimately degrades performance. To address this challenge, we propose Extract Candidate then Predict (ECP), a novel training-free, task-agnostic two-stage framework designed to enhance MLLM performance on high-resolution images. The key intuition behind ECP is that while MLLMs struggle with high-resolution images, their predictions on downsampled images still contain implicit localization cues. By first identifying candidate region using the coarse prediction and then predicting the final output based on candidate region, ECP effectively preserves fine-grained details while mitigating the challenges posed by high-resolution data. We validate our framework on 4K GUI grounding and 4K, 8K MLLM perception, achieving +21.3%, +5.8%, +5.2% absolute improvement compared to baseline respectively, demonstrating its effectiveness. Code is available at https://github.com/yenncye/ECP.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語理解、推論、生成において顕著な能力を示す。
しかし、彼らは高解像度画像における微粒な局所化と推論を必要とするタスクに苦労している。
この制約は、MLLMが固定画像解像度で微調整され、MLLMで使用される事前訓練された画像エンコーダと整合するという事実に起因している。
その結果、高解像度画像をMLLMに直接供給することは、列車の分解能の相違による一般化の低下につながるが、これらの画像のアンサンプは、微粒な視覚的詳細を再現し、最終的に性能を低下させる。
この課題に対処するために,高解像度画像上でのMLLM性能向上を目的とした,トレーニング不要でタスクに依存しない新しい2段階フレームワークであるExtract Candidate then Predict (ECP)を提案する。
ECPの背後にある重要な直感は、MLLMは高解像度画像に苦しむが、ダウンサンプル画像上の予測には暗黙の局所化の手がかりが含まれていることである。
最初に、粗い予測を用いて候補領域を特定し、次に候補領域に基づいて最終的な出力を予測することにより、ECPは、高解像度データによる課題を緩和しつつ、きめ細かな詳細を効果的に保存する。
我々は,4K GUI接地と4K,8K MLLMの認識において,ベースラインに比べて+21.3%,+5.8%,+5.2%の絶対的改善を達成し,その効果を実証した。
コードはhttps://github.com/yenncye/ECP.comで入手できる。
関連論文リスト
- Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - Dynamic Pyramid Network for Efficient Multimodal Large Language Model [11.864416286283399]
MLLM(Multimodal large language model)は様々な視覚言語(VL)タスクにおいて顕著な性能を示す。
近年の取り組みは、MLLMの計算コストを抑えるために視覚的特徴を圧縮することを目的としている。
効率的なMLLMのための新しい動的ピラミッドネットワーク(DPN)を提案する。
論文 参考訳(メタデータ) (2025-03-26T08:44:11Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - PETALface: Parameter Efficient Transfer Learning for Low-resolution Face Recognition [54.642714288448744]
PETALfaceは、PEFTのパワーを低解像度の顔認識に活用した最初の作品である。
バックボーンに2つの低ランク適応モジュールを導入し、入力画像の品質に基づいて重みを調整し、ギャラリーとプローブ画像の品質の違いを考慮に入れた。
実験により,提案手法は高分解能・混合品質データセットの性能を保ちながら,低分解能データセットの完全な微調整よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-10T18:59:45Z) - Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models [57.280853324896306]
マルチモーダル大言語モデル(MLLM)は、高解像度(HR)画像の複雑な詳細を認識し解釈するのに苦労する。
HR-Benchは、4K&8K画像上でMLLMの性能を厳格に評価する最初の意図的に設計されたベンチマークである。
HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$2$)を提案する。
論文 参考訳(メタデータ) (2024-08-28T06:09:02Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。