Fugu-MT 論文翻訳(概要): Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios

論文の概要: Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios

arxiv url: http://arxiv.org/abs/2604.14041v2
Date: Thu, 16 Apr 2026 03:14:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-17 16:09:14.209242
Title: Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios
Title（参考訳）: Seek-and-Solve: 日々のシナリオにおけるビジュアルクレー駆動推論のためのMLLMのベンチマーク
Authors: Xiaomin Li, Tala Wang, Zichen Zhong, Ying Zhang, Zirui Zheng, Takashi Isobe, Dezhuang Li, Huchuan Lu, You He, Xu Jia,
Abstract要約: DailyClueは、日々のシナリオで視覚的な手がかり駆動推論のために設計されたベンチマークである。本研究は,(1) 日常活動の厳格化,(2) 問合せ設計の課題,という2つの基本原則で導かれる。本分析は,視覚的手がかりの正確な同定が堅牢な推論に不可欠であることを強調し,いくつかの重要な知見を明らかにした。
参考スコア（独自算出の注目度）: 56.703500104126014
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Daily scenarios are characterized by visual richness, requiring Multimodal Large Language Models (MLLMs) to filter noise and identify decisive visual clues for accurate reasoning. Yet, current benchmarks predominantly aim at evaluating MLLMs' pre-existing knowledge or perceptual understanding, often neglecting the critical capability of reasoning. To bridge this gap, we introduce DailyClue, a benchmark designed for visual clue-driven reasoning in daily scenarios. Our construction is guided by two core principles: (1) strict grounding in authentic daily activities, and (2) challenging query design that necessitates more than surface-level perception. Instead of simple recognition, our questions compel MLLMs to actively explore suitable visual clues and leverage them for subsequent reasoning. To this end, we curate a comprehensive dataset spanning four major daily domains and 16 distinct subtasks. Comprehensive evaluation across MLLMs and agentic models underscores the formidable challenge posed by our benchmark. Our analysis reveals several critical insights, emphasizing that the accurate identification of visual clues is essential for robust reasoning.
Abstract（参考訳）: 日次シナリオは視覚的豊かさを特徴とし、ノイズをフィルタリングし、正確な推論のための決定的な視覚的手がかりを特定するためにMLLM(Multimodal Large Language Models)を必要とする。しかし、現在のベンチマークは主にMLLMの既存の知識や知覚的理解を評価することを目的としており、しばしば推論の重要な能力を無視している。このギャップを埋めるために、日々のシナリオで視覚的な手がかり駆動推論のために設計されたベンチマークであるDailyClueを紹介します。提案手法は,(1) 日常活動の厳格な基盤化,(2) 表面レベルの認識以上を必要とするクエリ設計の難しさ,の2つの原則によって導かれる。単純な認識の代わりに、我々の質問はMLLMに対して、適切な視覚的手がかりを積極的に探求し、その後の推論に活用するように強制する。この目的のために、毎日4つの主要なドメインと16の異なるサブタスクにまたがる包括的なデータセットをキュレートする。 MLLMおよびエージェントモデル全体にわたる総合的な評価は、我々のベンチマークがもたらす恐ろしい課題を裏付けるものである。本分析は,視覚的手がかりの正確な同定が堅牢な推論に不可欠であることを強調し,いくつかの重要な知見を明らかにした。

論文の概要: Seek-and-Solve: Benchmarking MLLMs for Visual Clue-Driven Reasoning in Daily Scenarios

関連論文リスト