論文の概要: UR-Bench: A Benchmark for Multi-Hop Reasoning over Ultra-High-Resolution Images
- arxiv url: http://arxiv.org/abs/2601.08748v1
- Date: Wed, 31 Dec 2025 02:22:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.647545
- Title: UR-Bench: A Benchmark for Multi-Hop Reasoning over Ultra-High-Resolution Images
- Title(参考訳): UR-Bench:超高解像度画像に対するマルチホップ推論のベンチマーク
- Authors: Siqi Li, Xinyu Cai, Jianbiao Mei, Nianchen Deng, Pinlong Cai, Licheng Wen, Yufan Shen, Xuemeng Yang, Botian Shi, Yong Liu,
- Abstract要約: 超高分解能推論ベンチマーク (UR-Bench) を導入する。
UR-BenchはHumanistic ScenesとNatural Scenesの2つの主要なカテゴリで構成され、超高解像度画像の4つのサブセットをカバーする。
本稿では,言語モデルが外部視覚ツールを呼び出すことによって推論を行うエージェントベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.910783646241754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent multimodal large language models (MLLMs) show strong capabilities in visual-language reasoning, yet their performance on ultra-high-resolution imagery remains largely unexplored. Existing visual question answering (VQA) benchmarks typically rely on medium-resolution data, offering limited visual complexity. To bridge this gap, we introduce Ultra-high-resolution Reasoning Benchmark (UR-Bench), a benchmark designed to evaluate the reasoning capabilities of MLLMs under extreme visual information. UR-Bench comprises two major categories, Humanistic Scenes and Natural Scenes, covering four subsets of ultra-high-resolution images with distinct spatial structures and data sources. Each subset contains images ranging from hundreds of megapixels to gigapixels, accompanied by questions organized into three levels, enabling evaluation of models' reasoning capabilities in ultra-high-resolution scenarios. We further propose an agent-based framework in which a language model performs reasoning by invoking external visual tools. In addition, we introduce Semantic Abstraction and Retrieval tools that enable more efficient processing of ultra-high-resolution images. We evaluate state-of-the-art models using both an end-to-end MLLMs and our agent-based framework, demonstrating the effectiveness of our framework.
- Abstract(参考訳): 近年のマルチモーダル大言語モデル (MLLM) は視覚言語推論において強力な能力を示すが、超高解像度画像における性能は未解明のままである。
既存の視覚的質問応答(VQA)ベンチマークは一般的に中解像度のデータに依存しており、視覚的な複雑さが制限されている。
このギャップを埋めるために,超高解像度推論ベンチマーク (UR-Bench) を導入する。
UR-BenchはHumanistic ScenesとNatural Scenesの2つの主要なカテゴリから構成され、異なる空間構造とデータソースを持つ超高解像度画像の4つのサブセットをカバーする。
各サブセットには、数百メガピクセルからギガピクセルまでの画像が含まれており、超高解像度シナリオにおけるモデルの推論能力の評価を可能にする3つのレベルに分類された質問が伴っている。
さらに,言語モデルが外部視覚ツールを呼び出すことによって推論を行うエージェントベースのフレームワークを提案する。
さらに,超高解像度画像のより効率的な処理を可能にするセマンティック抽象化と検索ツールを導入する。
エンド・ツー・エンドのMLLMとエージェント・ベース・フレームワークを用いて最先端のモデルの評価を行い,本フレームワークの有効性を実証した。
関連論文リスト
- RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - Weaving Context Across Images: Improving Vision-Language Models through Focus-Centric Visual Chains [31.828341309787042]
視覚言語モデル(VLM)は、単一画像タスクにおいて顕著な成功を収める。
現実のシナリオでは複雑なマルチイメージの入力が伴うことが多く、パフォーマンスが著しく低下する。
マルチイメージシナリオにおけるVLMの知覚、理解、推論能力を高める新しいパラダイムであるFocus-Centric Visual Chainを提案する。
論文 参考訳(メタデータ) (2025-04-28T19:02:18Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning [15.296263261737026]
マルチイメージMIRBベンチマークを導入し、複数の画像を比較し、分析し、推論する視覚言語モデルの能力を評価する。
私たちのベンチマークには、知覚、視覚世界知識、推論、マルチホップ推論の4つのカテゴリが含まれています。
オープンソースVLMはシングルイメージタスクにおいてGPT-4Vに接近することを示したが、マルチイメージ推論タスクでは大きなギャップが残っている。
論文 参考訳(メタデータ) (2024-06-18T16:02:18Z) - Plug-and-Play Grounding of Reasoning in Multimodal Large Language Models [6.695747085909927]
MLLMにおけるプラグ・アンド・プレイグラウンドのための新しいフレームワークであるP2Gを紹介する。
P2Gは、画像内の重要な視覚的およびテキスト的要素への推論のオンザフライグラウンド化に専門家エージェントを使用している。
高解像度画像におけるオブジェクト間関係とテキスト内容の理解におけるMLLMの習熟度を評価するためのベンチマークであるP2GBを開発する。
論文 参考訳(メタデータ) (2024-03-28T11:26:30Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。