論文の概要: Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark
- arxiv url: http://arxiv.org/abs/2512.05091v1
- Date: Thu, 04 Dec 2025 18:55:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.327271
- Title: Visual Reasoning Tracer: Object-Level Grounded Reasoning Benchmark
- Title(参考訳): Visual Reasoning Tracer:Object-Level Grounded Reasoningベンチマーク
- Authors: Haobo Yuan, Yueyi Sun, Yanwei Li, Tao Zhang, Xueqing Deng, Henghui Ding, Lu Qi, Anran Wang, Xiangtai Li, Ming-Hsuan Yang,
- Abstract要約: このタスクでは、ターゲットオブジェクトをローカライズするだけでなく、推論パスを形成する中間オブジェクトを明示的に予測する必要がある。
この分野での研究を進めるために,(1)視覚的推論を評価するための人為的注釈付きベンチマークであるVRT-Bench,(2)推論トレースの質を評価するための新しい指標であるVRT-80k,(3)推論モデルトレーニングのための大規模データセットであるVRT-80kが提案されている。
- 参考スコア(独自算出の注目度): 112.46338388724116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have significantly improved performance on tasks such as visual grounding and visual question answering. However, the reasoning processes of these models remain largely opaque; they typically output only final predictions without revealing the intermediate steps or fine-grained evidence (e.g., pixels, locations) that lead to the result. This contrasts with human intelligence, which naturally operates through a chain of visual reasoning. To address this limitation, we introduce the Visual Reasoning Tracer (VRT) task, which requires models to not only localize the target object but also explicitly predict the intermediate objects that form the reasoning path. To advance research in this area, we contribute: (1) VRT-Bench, a human-annotated benchmark for evaluating visual reasoning; (2) a new metric for assessing the quality of reasoning traces; and (3) VRT-80k, a large-scale dataset for reasoning model training. Our experiments reveal that while existing models often produce the correct final output, they struggle to ground their intermediate reasoning. In contrast, models trained on VRT-80k achieve substantial improvements in tracing the reasoning path.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、視覚的接地や視覚的質問応答といったタスクのパフォーマンスを大幅に改善している。
しかし、これらのモデルの推論過程はほとんど不透明であり、通常は中間ステップや詳細な証拠(ピクセル、位置など)を示さずに最終的な予測のみを出力する。
これは人間の知性とは対照的であり、視覚的推論の連鎖を通して自然に機能する。
この制限に対処するために、ターゲットオブジェクトのローカライズだけでなく、推論パスを形成する中間オブジェクトを明示的に予測する必要があるVisual Reasoning Tracer(VRT)タスクを導入します。
この分野での研究を進めるために,(1)視覚的推論を評価するための人為的注釈付きベンチマークであるVRT-Bench,(2)推論トレースの質を評価するための新しい指標であるVRT-80k,(3)推論モデルトレーニングのための大規模データセットであるVRT-80kが提案されている。
実験の結果,既存のモデルでは最終結果が正しい場合が多いが,中間的推論の根拠付けに苦慮していることが明らかとなった。
対照的に、VRT-80kでトレーニングされたモデルは、推論パスのトレースにおいて大幅に改善されている。
関連論文リスト
- Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps [56.76175383189738]
MLLMの詳細な視覚的理解と空間的推論能力を評価するためのベンチマークであるReasonMapを紹介する。
ReasonMapには、13か国30都市からの高解像度のトランジットマップが含まれており、2つの質問タイプと3つのテンプレートにまたがる1008の質問応答ペアが含まれている。
基本および推論変種を含む15種類のMLLMの包括的評価は、直感的パターンを示す。
論文 参考訳(メタデータ) (2025-05-24T12:33:52Z) - Landscape of Thoughts: Visualizing the Reasoning Process of Large Language Models [58.64449765678416]
思考のランドスケープ(LoT)を導入し、任意の複数選択データセット上で特定の推論手法で推論軌跡を検査する。
LoTは、強いモデルと弱いモデル、正解と誤解、および異なる推論タスクを区別する。
トラジェクトリの正しさを評価する軽量検証器にLoTを適用することで、この利点を実証する。
論文 参考訳(メタデータ) (2025-03-28T06:09:51Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。