論文の概要: ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking
- arxiv url: http://arxiv.org/abs/2512.14654v1
- Date: Tue, 16 Dec 2025 18:13:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.827311
- Title: ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking
- Title(参考訳): ViRC:Reason Chunkingによるビジュアルインターリーブ数学CoTの強化
- Authors: Lihong Wang, Liangqi Li, Weiwei Feng, Jiamin Wu, Changtao Miao, Tieru Wu, Rui Ma, Bo Zhang, Zhe Li,
- Abstract要約: CoTはLLMの推論能力を大幅に向上させ、マルチモーダルドメインに拡張する際の課題に直面している。
マルチモーダルな数学的タスクのための ViRC フレームワークを提案し,CoT を連続的に臨界推論ユニットに構成する Reason Chunking 機構を提案する。
結果として得られたViRC-7Bモデルは、複数の数学ベンチマークでベースラインよりも平均18.8%向上した。
- 参考スコア(独自算出の注目度): 25.939489188497106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CoT has significantly enhanced the reasoning ability of LLMs while it faces challenges when extended to multimodal domains, particularly in mathematical tasks. Existing MLLMs typically perform textual reasoning solely from a single static mathematical image, overlooking dynamic visual acquisition during reasoning. In contrast, humans repeatedly examine visual image and employ step-by-step reasoning to prove intermediate propositions. This strategy of decomposing the problem-solving process into key logical nodes adheres to Miller's Law in cognitive science. Inspired by this insight, we propose a ViRC framework for multimodal mathematical tasks, introducing a Reason Chunking mechanism that structures multimodal mathematical CoT into consecutive Critical Reasoning Units (CRUs) to simulate human expert problem-solving patterns. CRUs ensure intra-unit textual coherence for intermediate proposition verification while integrating visual information across units to generate subsequent propositions and support structured reasoning. To this end, we present CRUX dataset by using three visual tools and four reasoning patterns to provide explicitly annotated CRUs across multiple reasoning paths for each mathematical problem. Leveraging the CRUX dataset, we propose a progressive training strategy inspired by human cognitive learning, which includes Instructional SFT, Practice SFT, and Strategic RL, aimed at further strengthening the Reason Chunking ability of the model.The resulting ViRC-7B model achieves a 18.8\% average improvement over baselines across multiple mathematical benchmarks. Code is available at https://github.com/Leon-LihongWang/ViRC.
- Abstract(参考訳): CoT は LLM の推論能力を大幅に向上させ、特に数学的なタスクにおいてマルチモーダル領域に拡張する際の課題に直面している。
既存のMLLMは通常、1つの静的な数学的画像のみからテキスト推論を行い、推論中の動的視覚的獲得を見越す。
対照的に、人間は視覚的イメージを繰り返し調べ、中間命題を証明するためにステップバイステップの推論を採用する。
問題解決プロセスを重要な論理ノードに分解するこの戦略は、認知科学におけるミラーの法則に則っている。
この知見に触発されて、我々はマルチモーダルな数学的タスクのためのViRCフレームワークを提案し、人間の専門家による問題解決パターンをシミュレートするために、マルチモーダルな数学的CoTを連続的臨界推論ユニット(CRU)に構造化するReason Chunkingメカニズムを導入した。
CRUは、中間命題検証のための単位内テキストコヒーレンスを確保すると同時に、単位間で視覚情報を統合して、その後の命題を生成し、構造化推論をサポートする。
この目的のために、3つのビジュアルツールと4つの推論パターンを用いてCRUXデータセットを示し、各数学的問題に対する複数の推論経路に明示的に注釈付けされたCRUを提供する。
Instructional SFT, Practice SFT, Strategic RLを含む,人間の認知学習にインスパイアされた進歩的学習戦略を提案する。
コードはhttps://github.com/Leon-LihongWang/ViRC.comで入手できる。
関連論文リスト
- Monet: Reasoning in Latent Visual Space Beyond Images and Language [55.424507246294326]
視覚的推論を推し進める上で有効なパラダイムとして「画像で考える」が登場している。
既存の方法は、人間のような抽象的な視覚的思考に欠ける。
Monetは、マルチモーダルな大規模言語モデルを潜在視覚空間内で直接推論できるトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T13:46:39Z) - LogicPuzzleRL: Cultivating Robust Mathematical Reasoning in LLMs via Reinforcement Learning [29.047063129464494]
大規模言語モデル(LLM)は多くの教師付きタスクで優れるが、よくなじみのない設定で構造化された推論に悩まされる。
この矛盾は、標準的な微調整パイプラインが汎用的な思考戦略を育むのではなく、狭く、ドメイン固有のものを注入する可能性があることを示唆している。
本研究では,7つのカスタム論理パズルの組による強化学習を通じて,LLMを微調整する「学習のための遊び」フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T09:40:47Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - Visualizing Thought: Conceptual Diagrams Enable Robust Planning in LMMs [59.66595230543127]
概念図はメンタルモデルを外部化し、関係のない詳細を抽象化して、エンティティの相互作用を効率的に捉える。
大規模言語モデル (LLM) と大規模マルチモーダルモデル (LMM) は、主にテキストを通して推論される。
我々は、LMMが複数の自己生成概念図を通した推論を可能にする、一般化可能なフレームワークであるVisual Thinkingを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:27:02Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Describe-then-Reason: Improving Multimodal Mathematical Reasoning through Visual Comprehension Training [24.989732666940153]
オープンソースのマルチモーダル大言語モデル(MLLM)は、テキスト入力や視覚入力を含む様々なタスクに優れる。
MLLMは複雑なマルチモーダルな数学的推論に苦慮し、GPT-4V(ision)やGemini-Proといった独自のモデルに遅れを取っている。
本稿では,2段階のトレーニングパイプラインVCARを提案する。
論文 参考訳(メタデータ) (2024-04-22T21:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。