論文の概要: VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2511.17731v1
- Date: Fri, 21 Nov 2025 19:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.385689
- Title: VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning
- Title(参考訳): VisReason: 視覚的連鎖推論のための大規模データセット
- Authors: Lingxiao Li, Yifan Wang, Xinyan Gao, Chen Tang, Xiangyu Yue, Chenyu You,
- Abstract要約: Chain-of-Thoughtプロンプトは、大きな言語モデルで複雑な推論を引き出すのに極めて効果的であることが証明されている。
既存のビジュアルCoTリソースは、典型的には小さく、ドメイン固有であり、構成的な視覚的推論に必要な人間のような段階的な構造を欠いている。
視覚的連鎖推論を促進するために設計された大規模データセットであるVisReasonを紹介した。
- 参考スコア(独自算出の注目度): 33.42243283912315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has proven remarkably effective for eliciting complex reasoning in large language models (LLMs). Yet, its potential in multimodal large language models (MLLMs) remains largely untapped, hindered by the absence of large-scale datasets that capture the rich, spatially grounded reasoning intrinsic to visual understanding. Existing visual-CoT resources are typically small, domain-specific, or lack the human-like stepwise structure necessary for compositional visual reasoning. In this paper, we introduce VisReason, a large-scale dataset designed to advance visual Chain-of-Thought reasoning. VisReason comprises 489K annotated examples spanning four diverse domains, each featuring multi-round, human-like rationales that guide MLLMs through interpretable visual reasoning steps. Building upon this, we curate VisReason-Pro, a 165K subset produced with a stronger expert-level GPT annotator, enriched with detailed reasoning traces and 3D spatial grounding via depth-informed annotations. Fine-tuning the state-of-the-art Qwen2.5-VL model on VisReason and VisReason-Pro yields substantial improvements in step-by-step visual reasoning accuracy, interpretability, and cross-benchmark generalization. These results demonstrate that VisReason equips MLLMs with more systematic and generalizable reasoning capabilities. We envision VisReason as a cornerstone for cultivating human-like visual reasoning, paving the way toward the next generation of multimodal intelligence.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、大規模言語モデル(LLM)において複雑な推論を引き出すのに極めて効果的であることが証明されている。
しかし、マルチモーダルな大言語モデル(MLLM)におけるそのポテンシャルは、視覚的理解に固有のリッチで空間的に根ざした推論を捉える大規模なデータセットが存在しないために、ほとんど妨げられていないままである。
既存のビジュアルCoTリソースは、典型的には小さく、ドメイン固有であり、構成的な視覚的推論に必要な人間のような段階的な構造を欠いている。
本稿では,視覚的連鎖推論を促進するために設計された大規模データセットであるVisReasonを紹介する。
VisReasonは4つの異なるドメインにまたがる489Kの注釈付き例で構成されている。
これに基づいて、より強力な専門家レベルのGPTアノテータで生成された165KサブセットであるVisReason-Proを、詳細な推論トレースと深度インフォームドアノテーションによる3次元空間接地により強化する。
VisReason と VisReason-Pro の最先端 Qwen2.5-VL モデルを微調整すると、ステップバイステップの視覚的推論精度、解釈可能性、クロスベンチマークの一般化が大幅に向上する。
これらの結果は、VisReasonがMLLMにより体系的で一般化可能な推論能力を持たせることを示した。
VisReasonは、人間の視覚的推論を育成し、次世代のマルチモーダルインテリジェンスへの道を歩むための基盤として考えています。
関連論文リスト
- Decoupling Reasoning and Perception: An LLM-LMM Framework for Faithful Visual Reasoning [34.940968264459805]
大規模言語モデル(LLM)のための学習不要なビジュアル推論パイプラインを導入する。
強力なLLMは、LMMを戦略的に尋問して、論理的連鎖に必要な特定の視覚情報を抽出する高レベルの推論をオーケストレーションする。
この枠組みは視覚的推論過程を効果的に制御し, 視覚的根拠のない推論ステップの大幅な削減と, 忠実さの大幅な改善に繋がる。
論文 参考訳(メタデータ) (2025-09-27T14:13:41Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [59.92786855289658]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。