論文の概要: URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
- arxiv url: http://arxiv.org/abs/2501.04686v1
- Date: Wed, 08 Jan 2025 18:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:57:03.315733
- Title: URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
- Title(参考訳): URSA:マルチモーダル数学におけるチェーン・オブ・シント推論の理解と検証
- Authors: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang,
- Abstract要約: CoT推論は大規模言語モデル(LLM)の数学的推論に広く応用されている。
本研究では,CoT蒸留,トラジェクトリ・フォーマットの書き換え,および形式統一を統合した3つのモジュール合成戦略を提案する。
その結果、マルチモーダル数学における高品質なCoT推論命令微調整データセットMMathCoT-1Mが得られた。
- 参考スコア(独自算出の注目度): 25.308196207219613
- License:
- Abstract: Chain-of-thought (CoT) reasoning has been widely applied in the mathematical reasoning of Large Language Models (LLMs). Recently, the introduction of derivative process supervision on CoT trajectories has sparked discussions on enhancing scaling capabilities during test time, thereby boosting the potential of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving high-precision CoT reasoning and has limited the realization of reasoning potential during test time. In this work, we propose a three-module synthesis strategy that integrates CoT distillation, trajectory-format rewriting, and format unification. It results in a high-quality CoT reasoning instruction fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively validate the state-of-the-art (SOTA) performance of the trained URSA-7B model on multiple multimodal mathematical benchmarks. For test-time scaling, we introduce a data synthesis strategy that automatically generates process annotation datasets, known as DualMath-1.1M, focusing on both interpretation and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B acts as a verifier, effectively enhancing the performance of URSA-7B at test time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD) verifying capabilities, showcasing its generalization. Model weights, training data and code will be open-sourced.
- Abstract(参考訳): CoT推論は、Large Language Models (LLMs) の数学的推論に広く応用されている。
近年,CoT軌道上での微分プロセス監視の導入により,試験時間におけるスケーリング能力の向上が議論され,これらのモデルの可能性が高まっている。
しかし、マルチモーダルな数学的推論では、高品質なCoTトレーニングデータの不足により、既存のモデルが高精度なCoT推論を達成できなくなり、試験期間中の推論ポテンシャルの実現が制限された。
本研究では,CoT蒸留,トラジェクトリ・フォーマットの書き換え,および形式統一を統合した3つのモジュール合成戦略を提案する。
その結果、マルチモーダル数学における高品質なCoT推論命令微調整データセットMMathCoT-1Mが得られた。
複数のマルチモーダル数学ベンチマークにおいて,訓練されたURSA-7BモデルのSOTA(State-of-the-art)性能を総合的に検証する。
テスト時間スケーリングでは、DualMath-1.1Mとして知られるプロセスデータセットを自動的に生成し、解釈と論理の両方に焦点を当てるデータ合成戦略を導入する。
DualMath-1.1MでのURSA-7Bのさらなる訓練により、我々はCoT推論能力から堅牢な監視能力に移行する。
訓練されたURSA-RM-7Bは検証器として機能し、試験時のURSA-7Bの性能を効果的に向上させる。
URSA-RM-7Bは、その一般化を実証し、優れたアウト・オブ・ディストリビューション(OOD)検証能力を示す。
モデルの重み、トレーニングデータ、コードをオープンソースにする。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning [13.728595670907136]
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。
オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
論文 参考訳(メタデータ) (2024-08-09T08:18:20Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models [21.85879890198875]
Decentralized Iterative Merging-And-Training (DIMAT) は、新しい分散深層学習アルゴリズムである。
DIMATは, 独立・同一分散(IID)および非IIDデータを用いて, 通信オーバヘッドの低減を図ることにより, より高速かつ高い初期ゲインが得られることを示す。
このDIMATパラダイムは未来の分散学習に新たな機会を与え、疎結合な通信計算で現実世界への適応性を高める。
論文 参考訳(メタデータ) (2024-04-11T18:34:29Z) - Dual Instruction Tuning with Large Language Models for Mathematical Reasoning [26.00472810721806]
本稿では,前方方向と逆方向の両方から数学的推論をモデル化するための二重命令チューニング手法を提案する。
これには、中間推論状態予測タスク(フォワード推論)とインストラクション再構築タスク(リバース推論)を導入して、LCMの理解と命令の実行を強化することが含まれる。
総合的な実験は、様々な数学的推論タスクにまたがる二重命令チューニング戦略の有効性と領域一般化を検証した。
論文 参考訳(メタデータ) (2024-03-27T06:43:58Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Mixed Large
Language Model Signals for Science Question Answering [59.63860993280275]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
LLM信号を用いた科学質問応答の指導を目的とした,T-SciQと呼ばれる新しい手法を提案する。
提案手法は,ScienceQAベンチマークで96.18%の精度で,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-05T11:56:30Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。