論文の概要: VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2511.17731v1
- Date: Fri, 21 Nov 2025 19:30:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.385689
- Title: VisReason: A Large-Scale Dataset for Visual Chain-of-Thought Reasoning
- Title(参考訳): VisReason: 視覚的連鎖推論のための大規模データセット
- Authors: Lingxiao Li, Yifan Wang, Xinyan Gao, Chen Tang, Xiangyu Yue, Chenyu You,
- Abstract要約: Chain-of-Thoughtプロンプトは、大きな言語モデルで複雑な推論を引き出すのに極めて効果的であることが証明されている。
既存のビジュアルCoTリソースは、典型的には小さく、ドメイン固有であり、構成的な視覚的推論に必要な人間のような段階的な構造を欠いている。
視覚的連鎖推論を促進するために設計された大規模データセットであるVisReasonを紹介した。
- 参考スコア(独自算出の注目度): 33.42243283912315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought (CoT) prompting has proven remarkably effective for eliciting complex reasoning in large language models (LLMs). Yet, its potential in multimodal large language models (MLLMs) remains largely untapped, hindered by the absence of large-scale datasets that capture the rich, spatially grounded reasoning intrinsic to visual understanding. Existing visual-CoT resources are typically small, domain-specific, or lack the human-like stepwise structure necessary for compositional visual reasoning. In this paper, we introduce VisReason, a large-scale dataset designed to advance visual Chain-of-Thought reasoning. VisReason comprises 489K annotated examples spanning four diverse domains, each featuring multi-round, human-like rationales that guide MLLMs through interpretable visual reasoning steps. Building upon this, we curate VisReason-Pro, a 165K subset produced with a stronger expert-level GPT annotator, enriched with detailed reasoning traces and 3D spatial grounding via depth-informed annotations. Fine-tuning the state-of-the-art Qwen2.5-VL model on VisReason and VisReason-Pro yields substantial improvements in step-by-step visual reasoning accuracy, interpretability, and cross-benchmark generalization. These results demonstrate that VisReason equips MLLMs with more systematic and generalizable reasoning capabilities. We envision VisReason as a cornerstone for cultivating human-like visual reasoning, paving the way toward the next generation of multimodal intelligence.
- Abstract(参考訳): CoT(Chain-of-Thought)プロンプトは、大規模言語モデル(LLM)において複雑な推論を引き出すのに極めて効果的であることが証明されている。
しかし、マルチモーダルな大言語モデル(MLLM)におけるそのポテンシャルは、視覚的理解に固有のリッチで空間的に根ざした推論を捉える大規模なデータセットが存在しないために、ほとんど妨げられていないままである。
既存のビジュアルCoTリソースは、典型的には小さく、ドメイン固有であり、構成的な視覚的推論に必要な人間のような段階的な構造を欠いている。
本稿では,視覚的連鎖推論を促進するために設計された大規模データセットであるVisReasonを紹介する。
VisReasonは4つの異なるドメインにまたがる489Kの注釈付き例で構成されている。
これに基づいて、より強力な専門家レベルのGPTアノテータで生成された165KサブセットであるVisReason-Proを、詳細な推論トレースと深度インフォームドアノテーションによる3次元空間接地により強化する。
VisReason と VisReason-Pro の最先端 Qwen2.5-VL モデルを微調整すると、ステップバイステップの視覚的推論精度、解釈可能性、クロスベンチマークの一般化が大幅に向上する。
これらの結果は、VisReasonがMLLMにより体系的で一般化可能な推論能力を持たせることを示した。
VisReasonは、人間の視覚的推論を育成し、次世代のマルチモーダルインテリジェンスへの道を歩むための基盤として考えています。
関連論文リスト
- Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [59.92786855289658]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、分離されたビジョン推論機能とマルチランプロアクティブな知覚を備えている。
実験の結果, ProReasonは様々なベンチマークにおいて, 既存のマルチステップ推論フレームワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。