論文の概要: ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration
- arxiv url: http://arxiv.org/abs/2411.16044v1
- Date: Mon, 25 Nov 2024 02:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:41.044551
- Title: ZoomEye: Enhancing Multimodal LLMs with Human-Like Zooming Capabilities through Tree-Based Image Exploration
- Title(参考訳): ZoomEye: ツリーベース画像探索による人間ライクなズーム機能を備えたマルチモーダルLLMの実現
- Authors: Haozhan Shen, Kangjia Zhao, Tiancheng Zhao, Ruochen Xu, Zilun Zhang, Mingwei Zhu, Jianwei Yin,
- Abstract要約: Zoom Eyeはイメージをツリーとして概念化し、各子ノードは親ノードのズームしたサブパッチを表し、ルートは全体イメージを表す。
例えば,LLaVA-v1.5-7Bは$V*$ Benchで34.57%増加し,HR-Benchで17.88%上昇する)。
- 参考スコア(独自算出の注目度): 33.675976247869016
- License:
- Abstract: An image, especially with high-resolution, typically consists of numerous visual elements, ranging from dominant large objects to fine-grained detailed objects. When perceiving such images, multimodal large language models~(MLLMs) face limitations due to the restricted input resolution of the pretrained vision encoder and the cluttered, dense context of the image, resulting in a focus on primary objects while easily overlooking detailed ones. In this paper, we propose Zoom Eye, a tree search algorithm designed to navigate the hierarchical and visual nature of images to capture relevant information. Zoom Eye conceptualizes an image as a tree, with each children node representing a zoomed sub-patch of the parent node and the root represents the overall image. Moreover, Zoom Eye is model-agnostic and training-free, so it enables any MLLMs to simulate human zooming actions by searching along the image tree from root to leaf nodes, seeking out pertinent information, and accurately responding to related queries. We experiment on a series of elaborate high-resolution benchmarks and the results demonstrate that Zoom Eye not only consistently improves the performance of a series base MLLMs with large margin~(e.g., LLaVA-v1.5-7B increases by 34.57\% on $V^*$ Bench and 17.88\% on HR-Bench), but also enables small 7B MLLMs to outperform strong large models such as GPT-4o. Our code is available at \href{https://github.com/om-ai-lab/ZoomEye}{https://github.com/om-ai-lab/ZoomEye}.
- Abstract(参考訳): 画像は、特に高解像度のもので、典型的には、支配的な大物体から細かな細部まで、多くの視覚要素から構成される。
このような画像を認識すると、事前訓練された視覚エンコーダの入力解像度の制限と、画像の散らばった密集したコンテキストにより、マルチモーダルな大言語モデル~(MLLM)は制限に直面し、より詳細なものを見渡すことが容易となる。
本稿では,画像の階層的・視覚的な性質をナビゲートし,関連情報をキャプチャする木探索アルゴリズムZoom Eyeを提案する。
Zoom Eyeはイメージをツリーとして概念化し、各子ノードは親ノードのズームしたサブパッチを表し、ルートは全体イメージを表す。
さらに、Zoom Eyeはモデル非依存でトレーニング不要であるため、任意のMLLMは、ルートからリーフノードまでのイメージツリーを検索し、関連する情報を探し、関連するクエリに正確に応答することで、人間のズーム動作をシミュレートすることができる。
一連の高精細な高精細度ベンチマークを実験した結果,Zoom Eye は大きなマージン~(例えば LLaVA-v1.5-7B が$V^*$ Bench で 34.57 %,HR-Bench で 17.88 % の増加) を持つシリーズベースMLLM の性能を常に向上するだけでなく,GPT-4o などの強力なモデルよりも小さい 7B MLLM が優れていることを示した。
私たちのコードは \href{https://github.com/om-ai-lab/ZoomEye}{https://github.com/om-ai-lab/ZoomEye} で利用可能です。
関連論文リスト
- ZoomLDM: Latent Diffusion Model for multi-scale image generation [57.639937071834986]
複数のスケールで画像を生成するための拡散モデルZoomLDMを提案する。
我々のアプローチの中心は、自己教師あり学習(SSL)埋め込みを利用した、新たな拡大対応条件付け機構である。
ZoomLDMは、すべてのスケールにわたる最先端の画像生成品質を実現し、大きな画像全体のサムネイルを生成するデータスカース設定に優れています。
論文 参考訳(メタデータ) (2024-11-25T22:39:22Z) - LFSamba: Marry SAM with Mamba for Light Field Salient Object Detection [9.787855464038673]
光界カメラは、リッチな空間幾何学情報を含むキャプチャされた多焦点画像を用いて3Dシーンを再構成することができる。
本研究では,LFSambaと呼ばれる多焦点光場画像に対する最先端のサルエント物体検出モデルを提案する。
論文 参考訳(メタデータ) (2024-11-11T01:37:32Z) - FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs [58.95386070800286]
FullAnnoは、大規模で高品質できめ細かい画像アノテーションを生成するデータエンジンである。
我々はFullAnnoシステムを用いてCOCOデータセットとVisual Genomeデータセットを再注釈した。
実験により、再生したアノテーションは、複数のベンチマークでLLaVA-v1.5の能力を著しく向上できることが示された。
論文 参考訳(メタデータ) (2024-09-20T14:33:17Z) - AVG-LLaVA: A Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。
AVG-LLaVAは11のベンチマークで優れた性能を示し、視覚トークンの数を大幅に削減し、推論を高速化する。
論文 参考訳(メタデータ) (2024-09-20T10:50:21Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Efficient Classification of Very Large Images with Tiny Objects [15.822654320750054]
Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを用いて,大容量画像を小さなオブジェクトで分類する。
本研究では,2つの大画像データセットと1ギガピクセルデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-06-04T20:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。