論文の概要: CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving
- arxiv url: http://arxiv.org/abs/2601.01874v1
- Date: Mon, 05 Jan 2026 08:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.850565
- Title: CogFlow: Bridging Perception and Reasoning through Knowledge Internalization for Visual Mathematical Problem Solving
- Title(参考訳): CogFlow:視覚数学的問題解決のための知識内部化による認識と推論
- Authors: Shuhang Chen, Yunqiu Xu, Junjie Xie, Aojun Lu, Tao Feng, Zeying Huang, Ning Zhang, Yi Sun, Yi Yang, Hangjie Yuan,
- Abstract要約: 本稿では,認知に触発された新しい3段階のフレームワークであるCogFlowについて紹介する。
抽出された視覚的手がかりをその後の推論に忠実に統合することを保証するために,知識内部化リワードモデルを導入する。
また、120K以上の高品質な知覚関連アノテーションを持つサンプルを含むモデルトレーニングのための新しいデータセットMathCogも提供します。
- 参考スコア(独自算出の注目度): 28.57547723919984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress, multimodal large language models continue to struggle with visual mathematical problem solving. Some recent works recognize that visual perception is a bottleneck in visual mathematical reasoning, but their solutions are limited to improving the extraction and interpretation of visual inputs. Notably, they all ignore the key issue of whether the extracted visual cues are faithfully integrated and properly utilized in subsequent reasoning. Motivated by this, we present CogFlow, a novel cognitive-inspired three-stage framework that incorporates a knowledge internalization stage, explicitly simulating the hierarchical flow of human reasoning: perception$\Rightarrow$internalization$\Rightarrow$reasoning. Inline with this hierarchical flow, we holistically enhance all its stages. We devise Synergistic Visual Rewards to boost perception capabilities in parametric and semantic spaces, jointly improving visual information extraction from symbols and diagrams. To guarantee faithful integration of extracted visual cues into subsequent reasoning, we introduce a Knowledge Internalization Reward model in the internalization stage, bridging perception and reasoning. Moreover, we design a Visual-Gated Policy Optimization algorithm to further enforce the reasoning is grounded with the visual knowledge, preventing models seeking shortcuts that appear coherent but are visually ungrounded reasoning chains. Moreover, we contribute a new dataset MathCog for model training, which contains samples with over 120K high-quality perception-reasoning aligned annotations. Comprehensive experiments and analysis on commonly used visual mathematical reasoning benchmarks validate the superiority of the proposed CogFlow.
- Abstract(参考訳): 著しい進歩にもかかわらず、多モーダルな言語モデルは視覚数学的問題解決に苦戦し続けている。
近年の研究では、視覚知覚が視覚数学的推論のボトルネックであると認識されているが、その解決策は視覚入力の抽出と解釈の改善に限られている。
特に、抽出された視覚的手がかりが忠実に統合され、その後の推論で適切に活用されているかどうかという重要な問題を無視している。
これは認知に触発された3段階のフレームワークで、知識の内在化段階を包含し、人間の推論の階層的な流れを明示的にシミュレートする。
この階層的な流れに則って、私たちはすべてのステージを均等に強化します。
パラメトリック・セマンティック空間における知覚能力を高めるため,シンボルや図表からの視覚情報抽出を共同で改善するため,Synergistic Visual Rewardsを考案した。
抽出された視覚的手がかりをその後の推論に忠実に統合することを保証するため,内部化段階における知識内在化リワードモデルを導入し,認識と推論をブリッジする。
さらに、視覚的な知識を基盤とした推論をさらに強化するビジュアルゲートポリシー最適化アルゴリズムを設計し、コヒーレントに見えるが、視覚的に根拠のない推論連鎖であるショートカットを求めるモデルを防止する。
さらに,120K以上の高品質な知覚関連アノテーションを持つサンプルを含むモデルトレーニング用データセットMathCogを新たに提供した。
一般的な視覚数学的推論ベンチマークに関する総合的な実験と分析は、提案したCagFlowの優位性を検証している。
関連論文リスト
- Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs [3.2228025627337864]
本稿では,視覚言語モデル(VLM)における知覚推論インタフェースを識別するための構造化評価フレームワークを提案する。
本稿では,人間の問題解決戦略を反映した3つの評価パラダイムを提案する。
このフレームワークを適用したCAは、リッチで独立に生成された記述を推論するために強力な言語モデルを活用し、新しい最先端(SOTA)パフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-01-23T12:42:42Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - Learning Differentiable Logic Programs for Abstract Visual Reasoning [22.167393386879294]
微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。
NEUMANNはグラフベースの微分可能フォワード推論器で、メッセージをメモリ効率のよい方法で送信し、構造化プログラムを関手で処理する。
NEUMANNは視覚的推論タスクを効率的に解き、神経、象徴的、神経-象徴的ベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-03T11:02:40Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。