論文の概要: VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought
- arxiv url: http://arxiv.org/abs/2603.11631v1
- Date: Thu, 12 Mar 2026 07:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.95123
- Title: VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought
- Title(参考訳): VisDoT : 人間のような解釈基盤と思考の分解による視覚的推論の促進
- Authors: Eunsoo Lee, Jeongwoo Lee, Minki Hong, Jangho Choi, Jihie Kim,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、チャート内の視覚的プリミティブを確実に検出し、セマンティック表現と整合させるのに苦労する。
本研究では,視覚的推論を人間的な解釈基盤によって強化するフレームワークであるVisDoTを提案する。
- 参考スコア(独自算出の注目度): 4.774273791279332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) struggle to reliably detect visual primitives in charts and align them with semantic representations, which severely limits their performance on complex visual reasoning. This lack of perceptual grounding constitutes a major bottleneck for chart-based reasoning. We propose VisDoT, a framework that enhances visual reasoning through human-like interpretation grounding. We formalize four perceptual tasks based on the theory of graphical perception, including position and length. Building on this foundation, we introduce Decomposition-of-Thought (DoT) prompting, which sequentially separates questions into visual perception sub-questions and logic sub-questions. Fine-tuning InternVL with VisDoT achieves a +11.2% improvement on ChartQA and surpasses GPT-4o on the more challenging ChartQAPro benchmark. On the newly introduced VisDoTQA benchmark, the model improves by +33.2%. Furthermore, consistent zero-shot gains on diverse open-domain VQA benchmarks confirm the generalizability of the perception-logic separation strategy for visual question answering. VisDoT leverages human-like perception to enhance visual grounding, achieving state-of-the-art chart understanding and interpretable visual reasoning.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、チャート内の視覚的プリミティブを確実に検出し、それらを意味表現と整合させることに苦慮し、複雑な視覚的推論の性能を著しく制限する。
この知覚的根拠の欠如は、チャートベースの推論の大きなボトルネックとなっている。
本研究では,視覚的推論を人間的な解釈基盤によって強化するフレームワークであるVisDoTを提案する。
我々は、位置と長さを含む視覚的知覚理論に基づいて、4つの知覚タスクを定式化する。
この基礎の上に構築されたDoT(Decomposition-of-Thought)プロンプトは,質問を視覚的知覚サブクエストと論理サブクエストに逐次分離する。
微調整のInternVLとVisDoTはChartQAを+11.2%改善し、より挑戦的なChartQAProベンチマークでGPT-4oを上回った。
新しく導入されたVisDoTQAベンチマークでは、モデルが+33.2%向上した。
さらに、様々なオープンドメインのVQAベンチマークにおける一貫したゼロショットゲインは、視覚的質問応答に対する知覚論理的分離戦略の一般化可能性を確認する。
VisDoTは人間の知覚を活用して視覚的接地を強化し、最先端のチャート理解と解釈可能な視覚的推論を実現する。
関連論文リスト
- Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs [60.93949629734977]
モデル生成論理における幻覚を軽減するために,視覚コントラスト型自己学習共振器(VC-STaR)を提案する。
多様なVQAデータセットを収集し、マルチモーダルな類似性に応じてコントラストペアをキュレートし、VC-STaRを用いて合理性を生成する。
大規模な実験によると、VC-STaRは既存の自己改善アプローチを上回るだけでなく、SoTA視覚推論データセットで微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2026-03-03T03:18:31Z) - VisRes Bench: On Evaluating the Visual Reasoning Capabilities of VLMs [7.406217790017003]
自然主義的環境下での視覚的推論を文脈言語による制御なしで研究するためのベンチマークであるVisRes Benchを紹介した。
3段階の複雑さのモデル行動を分析し、知覚的および関係的な視覚的推論能力の明らかな限界を明らかにする。
我々は、VisResがマルチモーダル研究における抽象的な視覚的推論を促進するための統一的なフレームワークをどのように提供するかについて論じる。
論文 参考訳(メタデータ) (2025-12-24T14:18:38Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - HallusionBench: An Advanced Diagnostic Suite for Entangled Language Hallucination and Visual Illusion in Large Vision-Language Models [69.52245481329899]
本稿では,画像コンテキスト推論評価のためのベンチマークであるHalusionBenchを紹介する。
このベンチマークは、1129の質問と組み合わせた346の画像で構成されており、すべて人間の専門家によって細心の注意を払って作成されている。
HallusionBenchの評価では、15種類のモデルをベンチマークし、最先端のGPT-4Vによって達成された31.42%の質問対精度を強調した。
論文 参考訳(メタデータ) (2023-10-23T04:49:09Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。