論文の概要: V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions
- arxiv url: http://arxiv.org/abs/2512.11995v1
- Date: Fri, 12 Dec 2025 19:18:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.064446
- Title: V-REX: Benchmarking Exploratory Visual Reasoning via Chain-of-Questions
- Title(参考訳): V-REX: クエストの連鎖による探索的ビジュアル推論のベンチマーク
- Authors: Chenrui Fan, Yijun Liang, Shweta Bhardwaj, Kwesi Cobbina, Ming Li, Tianyi Zhou,
- Abstract要約: 我々は、ネイティブな多段階探索と評価プロトコルを必要とする視覚的推論課題のベンチマークを開発する。
V-REXは、ステップごとの質問と答えの有限のオプションを計算することによって、中間ステップの信頼性の高い定量的かつきめ細かな分析を実現する。
- 参考スコア(独自算出の注目度): 18.613487465258288
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While many vision-language models (VLMs) are developed to answer well-defined, straightforward questions with highly specified targets, as in most benchmarks, they often struggle in practice with complex open-ended tasks, which usually require multiple rounds of exploration and reasoning in the visual space. Such visual thinking paths not only provide step-by-step exploration and verification as an AI detective but also produce better interpretations of the final answers. However, these paths are challenging to evaluate due to the large exploration space of intermediate steps. To bridge the gap, we develop an evaluation suite, ``Visual Reasoning with multi-step EXploration (V-REX)'', which is composed of a benchmark of challenging visual reasoning tasks requiring native multi-step exploration and an evaluation protocol. V-REX covers rich application scenarios across diverse domains. V-REX casts the multi-step exploratory reasoning into a Chain-of-Questions (CoQ) and disentangles VLMs' capability to (1) Planning: breaking down an open-ended task by selecting a chain of exploratory questions; and (2) Following: answering curated CoQ sequentially to collect information for deriving the final answer. By curating finite options of questions and answers per step, V-REX achieves a reliable quantitative and fine-grained analysis of the intermediate steps. By assessing SOTA proprietary and open-sourced VLMs, we reveal consistent scaling trends, significant differences between planning and following abilities, and substantial room for improvement in multi-step exploratory reasoning.
- Abstract(参考訳): 多くの視覚言語モデル(VLM)は、多くのベンチマークのように、高度に特定されたターゲットで明確に定義された単純な質問に答えるために開発されているが、多くの場合、視覚空間における複数の探索と推論を必要とする複雑なオープンエンドタスクで実際に苦労する。
このような視覚的な思考経路は、AI探偵としてのステップバイステップの探索と検証を提供するだけでなく、最終回答のより良い解釈をもたらす。
しかし, 中間段階の大規模な探査空間のため, これらの経路の評価は困難である。
このギャップを埋めるために、ネイティブなマルチステップ探索を必要とする視覚的推論タスクのベンチマークと評価プロトコルからなる「V-REX(Multi-step Exploration)」と呼ばれる評価スイートを開発した。
V-REXは多様なドメインにわたるリッチなアプリケーションシナリオをカバーする。
V-REXは、複数段階の探索推論をCoQ(Chain-of-Questions)にキャストし、(1)計画:探索質問の連鎖を選択してオープンエンドタスクを分解し、(2)追従:キュレートされたCoQに順次回答して最終回答を導出する情報を集める。
V-REXは、ステップごとの質問と答えの有限のオプションを計算することによって、中間ステップの信頼性の高い定量的かつきめ細かな分析を実現する。
我々は、SOTAプロプライエタリおよびオープンソースVLMの評価により、一貫したスケーリングトレンド、計画と追従能力の重大な相違、多段階探索推論の改善の余地を明らかにした。
関連論文リスト
- Inter-Passage Verification for Multi-evidence Multi-answer QA [22.233409308846067]
本稿では,新たな複数問合せ型QAフレームワークを提案する。
本フレームワークは,各パスを個別に処理し,初期ハイリコールでノイズの多い応答セットを生成する。
我々のフレームワークは、様々なモデルサイズで既存のベースラインを著しく上回り、平均的なF1スコアは11.17%向上した。
論文 参考訳(メタデータ) (2025-05-31T07:03:52Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [92.5712549836791]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - ProcBench: Benchmark for Multi-Step Reasoning and Following Procedure [0.0]
本稿では,多段階推論の直接評価という,推論能力の特定の側面に焦点を当てたベンチマークを提案する。
我々のデータセットは、明示的な指示とそれに対応する質問のペアで構成されており、質問の解決に必要な手順は、その指示の中で完全に詳細に記述されている。
各ステップで様々なステップの解決と応答評価を必要とする問題を構築することにより、最先端のLCMの指示に従う能力の徹底的な評価を可能にする。
論文 参考訳(メタデータ) (2024-10-04T03:21:24Z) - Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning [40.972648044298374]
MLLM(Multi-Modal Large Language Models)は様々なVQAタスクにおいて顕著な性能を示す。
解釈可能性に欠け、複雑な視覚的な入力に苦しむことが多い。
438k問合せ対からなる大規模Visual CoTデータセットを提案する。
視覚的な入力を動的に重視し,解釈可能な思考を提供するマルチターン処理パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-25T17:59:23Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [47.668572102657684]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。