論文の概要: URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
- arxiv url: http://arxiv.org/abs/2501.04686v2
- Date: Thu, 23 Jan 2025 13:16:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:57:20.580130
- Title: URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
- Title(参考訳): URSA:マルチモーダル数学におけるチェーン・オブ・シント推論の理解と検証
- Authors: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang,
- Abstract要約: CoT推論は大規模言語モデル(LLM)の数学的推論能力を高めるために広く用いられている。
本研究では,マルチモーダルな数学的推論にシステム2スタイルの思考を導入する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 25.308196207219613
- License:
- Abstract: Chain-of-Thought (CoT) reasoning is widely used to enhance the mathematical reasoning capabilities of large language models (LLMs). The introduction of process supervision for CoT trajectories has sparked discussions on improving test-time scaling, thereby unlocking the System 2-style thinking capabilities of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving both deliberate reasoning and fine-grained verification. In this work, we propose a novel framework that introduces System 2-style thinking to multimodal mathematical reasoning. We introduce a three-module CoT data synthesis process that integrates CoT distillation, trajectory-format rewriting, and format unification. This process generates MMathCoT-1M, a high-quality CoT reasoning instruction fine-tuning dataset. Furthermore, we implement a dual-view trajectory labeling automation that targets both visual grounding fidelity and deductive chain validity, resulting in the DualMath-1.1M dataset. The URSA-8B model, trained on MMathCoT-1M, achieves new state-of-the-art (SOTA) performance among similarly sized multimodal LLMs on six popular reasoning benchmarks. Training URSA-8B further on the DualMath-1.1M dataset yields URSA-RM-8B, a verifier that enhances URSA-8B's test-time performance and surpasses strong closed-source multimodal MLLMs like GPT-4o. The model weights, training data, and code have been open-sourced: https://github.com/URSA-MATH/URSA-MATH.
- Abstract(参考訳): CoT(Chain-of-Thought)推論は、大規模言語モデル(LLM)の数学的推論能力を高めるために広く用いられている。
CoTトラジェクトリのプロセス監視の導入は、テスト時間スケーリングの改善に関する議論を巻き起こし、これらのモデルのSystem 2スタイルの思考能力を解き放ちました。
しかし、マルチモーダルな数学的推論において、高品質なCoTトレーニングデータの不足は、意図的な推論ときめ細かい検証の両方を達成するのを妨げている。
本研究では,マルチモーダルな数学的推論にシステム2スタイルの思考を導入する新しいフレームワークを提案する。
本稿では,CoT蒸留,トラジェクトリ・フォーマット書き換え,フォーマット統一を統合した3モジュールCoTデータ合成プロセスを提案する。
このプロセスは高品質なCoT推論命令微調整データセットであるMMathCoT-1Mを生成する。
さらに、視覚的接地忠実度と帰納的連鎖妥当性の両方を目標としたデュアルビュー軌道ラベル自動化を実装し、DualMath-1.1Mデータセットを作成する。
URSA-8BモデルはMMathCoT-1Mで訓練され、同様のサイズのマルチモーダルLLMの6つの一般的な推論ベンチマークにおいて、新しい最先端(SOTA)性能を実現する。
DualMath-1.1MデータセットでURSA-8Bをさらに訓練すると、URSA-RM-8BはURSA-8Bのテスト時間性能を高め、GPT-4oのような強力なクローズドソースのマルチモーダルMLLMを超える検証器となる。
モデルの重み、トレーニングデータ、コードは、https://github.com/URSA-MATH/URSA-MATHとしてオープンソース化された。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning [13.728595670907136]
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。
オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
論文 参考訳(メタデータ) (2024-08-09T08:18:20Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models [21.85879890198875]
Decentralized Iterative Merging-And-Training (DIMAT) は、新しい分散深層学習アルゴリズムである。
DIMATは, 独立・同一分散(IID)および非IIDデータを用いて, 通信オーバヘッドの低減を図ることにより, より高速かつ高い初期ゲインが得られることを示す。
このDIMATパラダイムは未来の分散学習に新たな機会を与え、疎結合な通信計算で現実世界への適応性を高める。
論文 参考訳(メタデータ) (2024-04-11T18:34:29Z) - Dual Instruction Tuning with Large Language Models for Mathematical Reasoning [26.00472810721806]
本稿では,前方方向と逆方向の両方から数学的推論をモデル化するための二重命令チューニング手法を提案する。
これには、中間推論状態予測タスク(フォワード推論)とインストラクション再構築タスク(リバース推論)を導入して、LCMの理解と命令の実行を強化することが含まれる。
総合的な実験は、様々な数学的推論タスクにまたがる二重命令チューニング戦略の有効性と領域一般化を検証した。
論文 参考訳(メタデータ) (2024-03-27T06:43:58Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。