論文の概要: Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement
- arxiv url: http://arxiv.org/abs/2506.01663v1
- Date: Mon, 02 Jun 2025 13:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.403862
- Title: Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement
- Title(参考訳): Zoom-Refine: 局所ズームと自己精製による高分解能マルチモーダル理解の促進
- Authors: Xuan Yu, Dayan Guan, Michael Ying Yang, Yanfeng Gu,
- Abstract要約: MLLM(Multimodal Large Language Models)は高解像度画像の正確な解釈に苦慮することが多い。
この問題に対処するためのMLLM機能を強化した新しいトレーニングフリーのZoom-Refineを導入する。
本手法は, 空間的局所化, 文脈的推論, 比較分析にMLLM固有の能力を活用し, 追加の訓練や外部の専門家を必要とせずに活用する。
- 参考スコア(独自算出の注目度): 24.261439217182613
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal Large Language Models (MLLM) often struggle to interpret high-resolution images accurately, where fine-grained details are crucial for complex visual understanding. We introduce Zoom-Refine, a novel training-free method that enhances MLLM capabilities to address this issue. Zoom-Refine operates through a synergistic process of \textit{Localized Zoom} and \textit{Self-Refinement}. In the \textit{Localized Zoom} step, Zoom-Refine leverages the MLLM to provide a preliminary response to an input query and identifies the most task-relevant image region by predicting its bounding box coordinates. During the \textit{Self-Refinement} step, Zoom-Refine then integrates fine-grained details from the high-resolution crop (identified by \textit{Localized Zoom}) with its initial reasoning to re-evaluate and refine its preliminary response. Our method harnesses the MLLM's inherent capabilities for spatial localization, contextual reasoning and comparative analysis without requiring additional training or external experts. Comprehensive experiments demonstrate the efficacy of Zoom-Refine on two challenging high-resolution multimodal benchmarks. Code is available at \href{https://github.com/xavier-yu114/Zoom-Refine}{\color{magenta}github.com/xavier-yu114/Zoom-Refine}
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑な視覚的理解において、微細な細部が不可欠である高解像度画像の正確な解釈に苦慮することが多い。
この問題に対処するためのMLLM機能を強化した新しいトレーニングフリーのZoom-Refineを導入する。
Zoom-Refine は \textit{Localized Zoom} と \textit{Self-Refinement} の相乗的プロセスを介して動作する。
\textit{Localized Zoom} ステップでは、Zoom-Refine は MLLM を利用して入力クエリに対する予備応答を提供し、そのバウンディングボックス座標を予測して最もタスク関連の画像領域を識別する。
Zoom-Refineは、 \textit{Self-Refinement} ステップの間、高解像度の作物( \textit{Localized Zoom} で識別される)の細かい詳細と、その予備応答を再評価し、洗練する最初の理由を統合する。
本手法は, 空間的局所化, 文脈的推論, 比較分析にMLLM固有の能力を活用し, 追加の訓練や外部の専門家を必要とせずに活用する。
総合的な実験は、2つの挑戦的な高解像度マルチモーダルベンチマークに対するZoom-Refineの有効性を示す。
コードは \href{https://github.com/xavier-yu114/Zoom-Refine}{\color{magenta}github.com/xavier-yu114/Zoom-Refine} で公開されている。
関連論文リスト
- Chain-of-Zoom: Extreme Super-Resolution via Scale Autoregression and Preference Alignment [51.99765487172328]
CoZ(Chain-of-zoom)は、SISRをマルチスケール対応プロンプトを備えた中間スケールステートの連鎖に分解するフレームワークである。
視覚的手がかりは高倍率で減少するため、視覚言語モデル(VLM)によって生成されたマルチスケール対応テキストプロンプトで各ズームステップを拡大する。
実験により、CoZでラップされた標準4x拡散SRモデルが256倍拡大し、高い知覚品質と忠実度が得られることが示された。
論文 参考訳(メタデータ) (2025-05-24T08:50:08Z) - VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought [51.43082554363725]
textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
論文 参考訳(メタデータ) (2025-05-22T03:50:13Z) - XeMap: Contextual Referring in Large-Scale Remote Sensing Environments [13.162347922111056]
XeMapタスクは、大規模RSシーンにおけるテキスト参照領域のコンテキスト的、きめ細かいローカライゼーションに焦点を当てる。
XeMap-Networkは、RSにおけるピクセルレベルのクロスモーダルなコンテキスト参照マッピングの複雑さを扱う。
HMSAモジュールはテキスト意味ベクトルとマルチスケールの視覚的特徴を一致させ、正確なマルチモーダルマッチングを可能にする。
論文 参考訳(メタデータ) (2025-04-30T02:14:39Z) - EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery [15.581788175591097]
リモートセンシング画像に自然空間モデルを適用することは困難である。
EarthGPT-Xはズームインとズームアウトのインサイトを提供する。
実験は、多粒度タスクにおける提案された地球GPT-Xの優位性を実証した。
論文 参考訳(メタデータ) (2025-04-17T09:56:35Z) - Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception [10.377899615199278]
高品質な画像キャプションは、クロスモーダルアプリケーションの性能向上に重要な役割を果たす。
近年,多モーダル大言語モデル (MLLM) を用いてキャプションを生成している。
しかし、現在のMLLMは細かい細部や幻覚に苦しむキャプションをしばしば生成している。
論文 参考訳(メタデータ) (2025-04-09T08:07:46Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - DLaVA: Document Language and Vision Assistant for Answer Localization with Enhanced Interpretability and Trustworthiness [34.170341753045776]
本稿では,文書VQAの応答ローカライゼーション機能を備えたMLLMを改良する新しい手法であるDLaVAを紹介する。
我々はOCRに依存しないアーキテクチャとOCRに依存しないアーキテクチャの両方を提示する。
我々の貢献は、空間的アノテートされた視覚コンテンツに応答を接地することで、解釈可能性と信頼性を高めることである。
論文 参考訳(メタデータ) (2024-11-29T06:17:11Z) - ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration [33.675976247869016]
Zoom Eyeはイメージをツリーとして概念化し、各子ノードは親ノードのズームしたサブパッチを表し、ルートは全体イメージを表す。
例えば,LLaVA-v1.5-7Bは$V*$ Benchで34.57%増加し,HR-Benchで17.88%上昇する)。
論文 参考訳(メタデータ) (2024-11-25T02:15:30Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。