論文の概要: Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios
- arxiv url: http://arxiv.org/abs/2604.14041v2
- Date: Thu, 16 Apr 2026 03:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 16:09:14.209242
- Title: Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios
- Title(参考訳): Seek-and-Solve: 日々のシナリオにおけるビジュアルクレー駆動推論のためのMLLMのベンチマーク
- Authors: Xiaomin Li, Tala Wang, Zichen Zhong, Ying Zhang, Zirui Zheng, Takashi Isobe, Dezhuang Li, Huchuan Lu, You He, Xu Jia,
- Abstract要約: DailyClueは、日々のシナリオで視覚的な手がかり駆動推論のために設計されたベンチマークである。
本研究は,(1) 日常活動の厳格化,(2) 問合せ設計の課題,という2つの基本原則で導かれる。
本分析は,視覚的手がかりの正確な同定が堅牢な推論に不可欠であることを強調し,いくつかの重要な知見を明らかにした。
- 参考スコア(独自算出の注目度): 56.703500104126014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Daily scenarios are characterized by visual richness, requiring Multimodal Large Language Models (MLLMs) to filter noise and identify decisive visual clues for accurate reasoning. Yet, current benchmarks predominantly aim at evaluating MLLMs' pre-existing knowledge or perceptual understanding, often neglecting the critical capability of reasoning. To bridge this gap, we introduce DailyClue, a benchmark designed for visual clue-driven reasoning in daily scenarios. Our construction is guided by two core principles: (1) strict grounding in authentic daily activities, and (2) challenging query design that necessitates more than surface-level perception. Instead of simple recognition, our questions compel MLLMs to actively explore suitable visual clues and leverage them for subsequent reasoning. To this end, we curate a comprehensive dataset spanning four major daily domains and 16 distinct subtasks. Comprehensive evaluation across MLLMs and agentic models underscores the formidable challenge posed by our benchmark. Our analysis reveals several critical insights, emphasizing that the accurate identification of visual clues is essential for robust reasoning.
- Abstract(参考訳): 日次シナリオは視覚的豊かさを特徴とし、ノイズをフィルタリングし、正確な推論のための決定的な視覚的手がかりを特定するためにMLLM(Multimodal Large Language Models)を必要とする。
しかし、現在のベンチマークは主にMLLMの既存の知識や知覚的理解を評価することを目的としており、しばしば推論の重要な能力を無視している。
このギャップを埋めるために、日々のシナリオで視覚的な手がかり駆動推論のために設計されたベンチマークであるDailyClueを紹介します。
提案手法は,(1) 日常活動の厳格な基盤化,(2) 表面レベルの認識以上を必要とするクエリ設計の難しさ,の2つの原則によって導かれる。
単純な認識の代わりに、我々の質問はMLLMに対して、適切な視覚的手がかりを積極的に探求し、その後の推論に活用するように強制する。
この目的のために、毎日4つの主要なドメインと16の異なるサブタスクにまたがる包括的なデータセットをキュレートする。
MLLMおよびエージェントモデル全体にわたる総合的な評価は、我々のベンチマークがもたらす恐ろしい課題を裏付けるものである。
本分析は,視覚的手がかりの正確な同定が堅牢な推論に不可欠であることを強調し,いくつかの重要な知見を明らかにした。
関連論文リスト
- VER-Bench: Evaluating MLLMs on Reasoning with Fine-Grained Visual Evidence [34.88628187460859]
VER-Benchは、細かい視覚的手がかりを識別するMLLMの能力を評価する新しいフレームワークである。
VER-Benchの各質問には、視覚的手がかりとそれらに由来する質問関連推論という、構造化された証拠が伴っている。
論文 参考訳(メタデータ) (2025-08-06T19:59:42Z) - MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI [59.196131618912005]
マルチモーダル大規模言語モデル(MLLM)の進展における推論の役割
既存のMLLMベンチマークは、しばしば、長鎖推論能力の正確かつ包括的な評価において不足している。
MLLM長鎖推論能力を正確かつ包括的に評価する新しいベンチマークであるMMReasonを紹介する。
論文 参考訳(メタデータ) (2025-06-30T07:14:38Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。