論文の概要: Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement
- arxiv url: http://arxiv.org/abs/2506.01663v1
- Date: Mon, 02 Jun 2025 13:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.403862
- Title: Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement
- Title(参考訳): Zoom-Refine: 局所ズームと自己精製による高分解能マルチモーダル理解の促進
- Authors: Xuan Yu, Dayan Guan, Michael Ying Yang, Yanfeng Gu,
- Abstract要約: MLLM(Multimodal Large Language Models)は高解像度画像の正確な解釈に苦慮することが多い。
この問題に対処するためのMLLM機能を強化した新しいトレーニングフリーのZoom-Refineを導入する。
本手法は, 空間的局所化, 文脈的推論, 比較分析にMLLM固有の能力を活用し, 追加の訓練や外部の専門家を必要とせずに活用する。
- 参考スコア(独自算出の注目度): 24.261439217182613
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLM) often struggle to interpret high-resolution images accurately, where fine-grained details are crucial for complex visual understanding. We introduce Zoom-Refine, a novel training-free method that enhances MLLM capabilities to address this issue. Zoom-Refine operates through a synergistic process of \textit{Localized Zoom} and \textit{Self-Refinement}. In the \textit{Localized Zoom} step, Zoom-Refine leverages the MLLM to provide a preliminary response to an input query and identifies the most task-relevant image region by predicting its bounding box coordinates. During the \textit{Self-Refinement} step, Zoom-Refine then integrates fine-grained details from the high-resolution crop (identified by \textit{Localized Zoom}) with its initial reasoning to re-evaluate and refine its preliminary response. Our method harnesses the MLLM's inherent capabilities for spatial localization, contextual reasoning and comparative analysis without requiring additional training or external experts. Comprehensive experiments demonstrate the efficacy of Zoom-Refine on two challenging high-resolution multimodal benchmarks. Code is available at \href{https://github.com/xavier-yu114/Zoom-Refine}{\color{magenta}github.com/xavier-yu114/Zoom-Refine}
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑な視覚的理解において、微細な細部が不可欠である高解像度画像の正確な解釈に苦慮することが多い。
この問題に対処するためのMLLM機能を強化した新しいトレーニングフリーのZoom-Refineを導入する。
Zoom-Refine は \textit{Localized Zoom} と \textit{Self-Refinement} の相乗的プロセスを介して動作する。
\textit{Localized Zoom} ステップでは、Zoom-Refine は MLLM を利用して入力クエリに対する予備応答を提供し、そのバウンディングボックス座標を予測して最もタスク関連の画像領域を識別する。
Zoom-Refineは、 \textit{Self-Refinement} ステップの間、高解像度の作物( \textit{Localized Zoom} で識別される)の細かい詳細と、その予備応答を再評価し、洗練する最初の理由を統合する。
本手法は, 空間的局所化, 文脈的推論, 比較分析にMLLM固有の能力を活用し, 追加の訓練や外部の専門家を必要とせずに活用する。
総合的な実験は、2つの挑戦的な高解像度マルチモーダルベンチマークに対するZoom-Refineの有効性を示す。
コードは \href{https://github.com/xavier-yu114/Zoom-Refine}{\color{magenta}github.com/xavier-yu114/Zoom-Refine} で公開されている。
関連論文リスト
- VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought [51.43082554363725]
textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
論文 参考訳(メタデータ) (2025-05-22T03:50:13Z) - XeMap: Contextual Referring in Large-Scale Remote Sensing Environments [13.162347922111056]
XeMapタスクは、大規模RSシーンにおけるテキスト参照領域のコンテキスト的、きめ細かいローカライゼーションに焦点を当てる。
XeMap-Networkは、RSにおけるピクセルレベルのクロスモーダルなコンテキスト参照マッピングの複雑さを扱う。
HMSAモジュールはテキスト意味ベクトルとマルチスケールの視覚的特徴を一致させ、正確なマルチモーダルマッチングを可能にする。
論文 参考訳(メタデータ) (2025-04-30T02:14:39Z) - Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception [10.377899615199278]
高品質な画像キャプションは、クロスモーダルアプリケーションの性能向上に重要な役割を果たす。
近年,多モーダル大言語モデル (MLLM) を用いてキャプションを生成している。
しかし、現在のMLLMは細かい細部や幻覚に苦しむキャプションをしばしば生成している。
論文 参考訳(メタデータ) (2025-04-09T08:07:46Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness [34.170341753045776]
本稿では,文書VQAの応答ローカライゼーション機能を備えたMLLMを改良する新しい手法であるDLaVAを紹介する。
我々はOCRに依存しないアーキテクチャとOCRに依存しないアーキテクチャの両方を提示する。
我々の貢献は、空間的アノテートされた視覚コンテンツに応答を接地することで、解釈可能性と信頼性を高めることである。
論文 参考訳(メタデータ) (2024-11-29T06:17:11Z) - ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration [33.675976247869016]
Zoom Eyeはイメージをツリーとして概念化し、各子ノードは親ノードのズームしたサブパッチを表し、ルートは全体イメージを表す。
例えば,LLaVA-v1.5-7Bは$V*$ Benchで34.57%増加し,HR-Benchで17.88%上昇する)。
論文 参考訳(メタデータ) (2024-11-25T02:15:30Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。