Fugu-MT 論文翻訳(概要): MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

論文の概要: MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning

arxiv url: http://arxiv.org/abs/2506.05331v1
Date: Thu, 05 Jun 2025 17:59:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.895183
Title: MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
Title（参考訳）: MINT-CoT: 数学的連鎖推論におけるインターリーブ型視覚トークンの導入
Authors: Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li,
Abstract要約: CoT(Chain-of-Thought)は、Large Language Models(LLMs)において拡張された数学的推論を持つ階層型視覚推論のための数学的インターリーブトケンスを提案する。
参考スコア（独自算出の注目度）: 43.525708427464544
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain-of-Thought (CoT) has widely enhanced mathematical reasoning in Large Language Models (LLMs), but it still remains challenging for extending it to multimodal domains. Existing works either adopt a similar textual reasoning for image input, or seek to interleave visual signals into mathematical CoT. However, they face three key limitations for math problem-solving: reliance on coarse-grained box-shaped image regions, limited perception of vision encoders on math content, and dependence on external capabilities for visual modification. In this paper, we propose MINT-CoT, introducing Mathematical INterleaved Tokens for Chain-of-Thought visual reasoning. MINT-CoT adaptively interleaves relevant visual tokens into textual reasoning steps via an Interleave Token, which dynamically selects visual regions of any shapes within math figures. To empower this capability, we construct the MINT-CoT dataset, containing 54K mathematical problems aligning each reasoning step with visual regions at the token level, accompanied by a rigorous data generation pipeline. We further present a three-stage MINT-CoT training strategy, progressively combining text-only CoT SFT, interleaved CoT SFT, and interleaved CoT RL, which derives our MINT-CoT-7B model. Extensive experiments demonstrate the effectiveness of our method for effective visual interleaved reasoning in mathematical domains, where MINT-CoT-7B outperforms the baseline model by +34.08% on MathVista, +28.78% on GeoQA, and +23.2% on MMStar, respectively. Our code and data are available at https://github.com/xinyan-cxy/MINT-CoT
Abstract（参考訳）: CoT (Chain-of-Thought) はLarge Language Models (LLMs) において数学的推論を広く拡張しているが、マルチモーダルドメインに拡張することは依然として困難である。既存の作品は、画像入力に類似したテキスト推論を採用するか、視覚信号を数学的CoTにインターリーブしようとする。しかし、それらは、粗いボックス形状の画像領域への依存、数学の内容に対する視覚エンコーダの認識の制限、視覚的な修正のための外部能力への依存の3つの重要な制限に直面している。本稿では,MINT-CoTを提案する。 MINT-CoTは、関連する視覚トークンをInterleave Tokenを介してテキスト推論ステップに適応的にインターリーブする。この能力を高めるために、我々はMINT-CoTデータセットを構築し、厳密なデータ生成パイプラインを伴って、各推論ステップをトークンレベルで視覚領域と整合する54Kの数学的問題を含む。さらに,テキストのみのCoT SFT,インターリーブのCoT SFT,インターリーブのCoT RLを組み合わせた3段階のMINT-CoTトレーニング戦略を提案する。 MINT-CoT-7BはMathVistaでは+34.08%、GeoQAでは+28.78%、MMStarでは+23.2%でベースラインモデルを上回った。私たちのコードとデータはhttps://github.com/xinyan-cxy/MINT-CoTで公開されています。

関連論文リスト

Zebra-CoT: A Dataset for Interleaved Vision Language Reasoning [105.25503508433758]
我々は182,384サンプルの多種多様な大規模データセットであるtextbfZebra-CoT$を紹介した。スケッチや視覚的推論が特に自然なタスクの4つのカテゴリに注目します。微調整されたベーゲル7Bは高品質な視覚的推論連鎖を生成するモデルを生成する。
論文参考訳（メタデータ） (2025-07-22T16:35:36Z)
MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning [36.55610944179401]
コードには、対応する図を生成するために必要なすべての情報を本質的にエンコードするので、クロスモーダルアライメントの監督としてコードを活用することを提案する。具体的には、イメージ・トゥ・コード・モデルとデータセットをモデル・イン・ザ・ループ・アプローチで共同開発する。我々は、ImgCode-8.6MでトレーニングしたMathCoder-VLを提案し、その後、マルチモーダル数学問題の解法としてMM-Math Instruct-3Mを微調整した。
論文参考訳（メタデータ） (2025-05-15T17:59:21Z)
Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization [69.29207684569695]
CoT推論は多モーダル大言語モデル(MLLM)の解釈可能性と問題解決能力を大幅に向上させる既存のアプローチはテキストCoTに重点を置いており、視覚的手がかりを活用する能力を制限する。本稿では、優先最適化による画像レベルのCoT推論のための新しいフレームワークであるUnsupervised Visual CoT (UV-CoT)を紹介する。
論文参考訳（メタデータ） (2025-04-25T14:48:18Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。 SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models [14.274813480249161]
数学と視覚のギャップを埋める大きな言語モデルである textbfMultiMath-7B を導入する。 textbfMultiMath-7Bは4段階のプロセスで訓練され、視覚言語アライメント、視覚と数学の指導チューニング、プロセス教師付き強化学習に重点を置いている。また,画像キャプションとステップワイズによるK-12レベルにまたがる新しい多モード数学的データセット,textbfMultiMath-300Kを構築した。
論文参考訳（メタデータ） (2024-08-30T07:37:38Z)
MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文参考訳（メタデータ） (2024-07-11T17:59:47Z)
Fewer is More: Boosting LLM Reasoning with Reinforced Context Pruning [31.110005898556892]
大きな言語モデル(LLM)は印象的な能力を示しているが、それでも数学の推論に苦戦している。我々はCoT-Influxを提案する。これはCoT学習の境界を押し上げる新しいアプローチである。 CoT-Influxは、CoTの実例と簡潔な例の入力を最大化するために粗いプルーナーを使用する。
論文参考訳（メタデータ） (2023-12-14T13:03:13Z)
Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。提案手法は,複数のMOTデータセット上での最先端性能を実現する。画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文参考訳（メタデータ） (2023-03-27T17:39:00Z)
Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks [108.4568236569645]
CoT(Chain-of-thinkts prompting)は、これらのタスクに対する最先端の手法である。本稿では、言語モデルを用いて推論過程をプログラムとして表現する「思考プログラム(PoT)」を提案する。 PoTは、評価されたすべてのデータセットに対して、CoTに対する平均的なパフォーマンス向上を約12%示すことができる。
論文参考訳（メタデータ） (2022-11-22T21:06:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。