論文の概要: ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration
- arxiv url: http://arxiv.org/abs/2411.16044v3
- Date: Wed, 27 Aug 2025 02:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 12:43:57.441211
- Title: ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration
- Title(参考訳): ZoomEye: ツリーベース画像探索による人間ライクなズーム機能を備えたマルチモーダルLLMの実現
- Authors: Haozhan Shen, Kangjia Zhao, Tiancheng Zhao, Ruochen Xu, Zilun Zhang, Mingwei Zhu, Jianwei Yin,
- Abstract要約: 我々は,視覚レベルの推論に適した訓練不要でモデルに依存しない木探索アルゴリズムZoom Eyeを提案する。
このアルゴリズムにより、MLLMは、タスク関連視覚的エビデンスを探索するために、ルートから葉ノードへナビゲートすることで、人間の様のズーム動作をシミュレートすることができる。
- 参考スコア(独自算出の注目度): 39.2654025469784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in vision-language understanding. Recently, with the integration of test-time scaling techniques, these models have also shown strong potential in visual reasoning. However, most existing reasoning approaches remain text-level in nature: MLLMs are prompted to explore various combinations of textual tokens via their underlying language model, while the visual input remains fixed throughout the reasoning process. This paradigm limits the model's ability to fully exploit rich visual information, particularly when dealing with images containing numerous fine-grained elements. In such cases, vision-level reasoning becomes crucial - where models dynamically zoom into specific regions of the image to gather detailed visual cues necessary for accurate decision-making. In this paper, we propose Zoom Eye, a training-free, model-agnostic tree search algorithm tailored for vision-level reasoning. Zoom Eye treats an image as a hierarchical tree structure, where each child node represents a zoomed-in sub-region of its parent, and the root corresponds to the full image. The algorithm enables MLLMs to simulate human-like zooming behavior by navigating from root to leaf nodes in search of task-relevant visual evidence. We experiment on a series of high-resolution benchmarks and the results demonstrate that Zoom Eye consistently improves the performance of multiple MLLMs by a large margin (e.g., InternVL2.5-8B increases by 15.71% and 17.69% on HR-Bench) and also enables small 3-8B MLLMs to outperform strong large models such as GPT-4o. Code: https://github.com/om-ai-lab/ZoomEye
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、視覚言語理解における印象的な能力を示す。
近年、テスト時間スケーリング技術の統合により、これらのモデルは視覚的推論にも大きな可能性を示している。
MLLMは、その基盤となる言語モデルを通じて、さまざまな組み合わせのテキストトークンを探索するよう促され、一方、視覚的な入力は、推論プロセスを通して固定されている。
このパラダイムは、特に多数のきめ細かい要素を含む画像を扱う場合、モデルがリッチな視覚情報を完全に活用する能力を制限する。
このような場合、視覚レベルの推論が重要となる - モデルが画像の特定の領域を動的にズームして、正確な意思決定に必要な詳細な視覚的手がかりを収集する。
本稿では,視覚レベルの推論に適した訓練不要でモデルに依存しない木探索アルゴリズムZoom Eyeを提案する。
Zoom Eyeはイメージを階層木構造として扱い、各子ノードは親のズームインサブリージョンを表し、根は全画像に対応する。
このアルゴリズムにより、MLLMは、タスク関連視覚的エビデンスを探索するために、ルートから葉ノードへナビゲートすることで、人間の様のズーム動作をシミュレートすることができる。
我々は一連の高精細度ベンチマークを実験し、Zoom Eyeは大きなマージン(例えば、InternVL2.5-8Bが15.71%増加し、HR-Benchが17.69%増加)で複数のMLLMの性能を継続的に改善し、3-8BのMLLMがGPT-4oのような強力な大モデルを上回ることを実証した。
コード:https://github.com/om-ai-lab/ZoomEye
関連論文リスト
- Zoom-Refine: Boosting High-Resolution Multimodal Understanding via Localized Zoom and Self-Refinement [24.261439217182613]
MLLM(Multimodal Large Language Models)は高解像度画像の正確な解釈に苦慮することが多い。
この問題に対処するためのMLLM機能を強化した新しいトレーニングフリーのZoom-Refineを導入する。
本手法は, 空間的局所化, 文脈的推論, 比較分析にMLLM固有の能力を活用し, 追加の訓練や外部の専門家を必要とせずに活用する。
論文 参考訳(メタデータ) (2025-06-02T13:32:35Z) - When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文 参考訳(メタデータ) (2025-03-10T17:51:16Z) - ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。
我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。
ZoomLDMは、すべてのスケールにわたる最先端の画像生成品質を実現し、大きな画像全体のサムネイルを生成するデータスカース設定に優れています。
論文 参考訳(メタデータ) (2024-11-25T22:39:22Z) - LFSamba: Marry SAM with Mamba for Light Field Salient Object Detection [9.787855464038673]
光界カメラは、リッチな空間幾何学情報を含むキャプチャされた多焦点画像を用いて3Dシーンを再構成することができる。
本研究では,LFSambaと呼ばれる多焦点光場画像に対する最先端のサルエント物体検出モデルを提案する。
論文 参考訳(メタデータ) (2024-11-11T01:37:32Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Efficient Classification of Very Large Images with Tiny Objects [15.822654320750054]
Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを用いて,大容量画像を小さなオブジェクトで分類する。
本研究では,2つの大画像データセットと1ギガピクセルデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-06-04T20:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。