Fugu-MT 論文翻訳(概要): URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

論文の概要: URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

arxiv url: http://arxiv.org/abs/2501.04686v1
Date: Wed, 08 Jan 2025 18:49:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-09 16:10:19.716035
Title: URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics
Title（参考訳）: URSA:マルチモーダル数学におけるチェーン・オブ・シント推論の理解と検証
Authors: Ruilin Luo, Zhuofan Zheng, Yifan Wang, Yiyao Yu, Xinzhe Ni, Zicheng Lin, Jin Zeng, Yujiu Yang,
Abstract要約: CoT推論は大規模言語モデル(LLM)の数学的推論に広く応用されている。本研究では,CoT蒸留,トラジェクトリ・フォーマットの書き換え,および形式統一を統合した3つのモジュール合成戦略を提案する。その結果、マルチモーダル数学における高品質なCoT推論命令微調整データセットMMathCoT-1Mが得られた。
参考スコア（独自算出の注目度）: 25.308196207219613
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Chain-of-thought (CoT) reasoning has been widely applied in the mathematical reasoning of Large Language Models (LLMs). Recently, the introduction of derivative process supervision on CoT trajectories has sparked discussions on enhancing scaling capabilities during test time, thereby boosting the potential of these models. However, in multimodal mathematical reasoning, the scarcity of high-quality CoT training data has hindered existing models from achieving high-precision CoT reasoning and has limited the realization of reasoning potential during test time. In this work, we propose a three-module synthesis strategy that integrates CoT distillation, trajectory-format rewriting, and format unification. It results in a high-quality CoT reasoning instruction fine-tuning dataset in multimodal mathematics, MMathCoT-1M. We comprehensively validate the state-of-the-art (SOTA) performance of the trained URSA-7B model on multiple multimodal mathematical benchmarks. For test-time scaling, we introduce a data synthesis strategy that automatically generates process annotation datasets, known as DualMath-1.1M, focusing on both interpretation and logic. By further training URSA-7B on DualMath-1.1M, we transition from CoT reasoning capabilities to robust supervision abilities. The trained URSA-RM-7B acts as a verifier, effectively enhancing the performance of URSA-7B at test time. URSA-RM-7B also demonstrates excellent out-of-distribution (OOD) verifying capabilities, showcasing its generalization. Model weights, training data and code will be open-sourced.
Abstract（参考訳）: CoT推論は、Large Language Models (LLMs) の数学的推論に広く応用されている。近年,CoT軌道上での微分プロセス監視の導入により,試験時間におけるスケーリング能力の向上が議論され,これらのモデルの可能性が高まっている。しかし、マルチモーダルな数学的推論では、高品質なCoTトレーニングデータの不足により、既存のモデルが高精度なCoT推論を達成できなくなり、試験期間中の推論ポテンシャルの実現が制限された。本研究では,CoT蒸留,トラジェクトリ・フォーマットの書き換え,および形式統一を統合した3つのモジュール合成戦略を提案する。その結果、マルチモーダル数学における高品質なCoT推論命令微調整データセットMMathCoT-1Mが得られた。複数のマルチモーダル数学ベンチマークにおいて,訓練されたURSA-7BモデルのSOTA(State-of-the-art)性能を総合的に検証する。テスト時間スケーリングでは、DualMath-1.1Mとして知られるプロセスデータセットを自動的に生成し、解釈と論理の両方に焦点を当てるデータ合成戦略を導入する。 DualMath-1.1MでのURSA-7Bのさらなる訓練により、我々はCoT推論能力から堅牢な監視能力に移行する。訓練されたURSA-RM-7Bは検証器として機能し、試験時のURSA-7Bの性能を効果的に向上させる。 URSA-RM-7Bは、その一般化を実証し、優れたアウト・オブ・ディストリビューション(OOD)検証能力を示す。モデルの重み、トレーニングデータ、コードをオープンソースにする。

関連論文リスト

MiroMind-M1: An Open-Source Advancement in Mathematical Reasoning via Context-Aware Multi-Stage Policy Optimization [74.04867639197445]
MiroMind-M1 は Qwen-2.5 ベースのベンチマーク上に構築された完全なオープンソース RLM のセットである。我々のモデルは2つの段階で訓練されている: SFT on a carefully curated corpus of 719K math-reasoning problem with confirmed CoT trajectories, then RLVR on 62K challenge and verible problem。
論文参考訳（メタデータ） (2025-07-19T16:21:23Z)
WeThink: Toward General-purpose Vision-Language Reasoning via Reinforcement Learning [17.459985667824807]
DeepSeek-R1のようなテキストベースの推論モデルの成功に基づいて、これらの機能をマルチモーダル推論に拡張することは大きな約束である。本稿では,強化学習を通じて汎用的な視覚言語推論を実現する方法について述べる。
論文参考訳（メタデータ） (2025-06-09T16:20:54Z)
Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。 RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文参考訳（メタデータ） (2025-06-05T08:40:24Z)
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning [28.92744927199283]
ReVisual-R1は、MathVerse、MathVision、WeMath、LogicVista、DynaMath、AIME2024、AIME2025といった挑戦的なベンチマークにおいて、オープンソースの7B MLLMの間で新しい最先端技術を実現している。
論文参考訳（メタデータ） (2025-06-04T17:51:08Z)
Unsupervised Post-Training for Multi-Modal LLM Reasoning via GRPO [25.288796606275973]
MLLMの教師なし後学習のための簡易かつ効果的なフレームワークであるMM-UPTを提案する。 MM-UPTはGRPO上に構築され、従来の報酬信号を複数のサンプル応答に対する多数決に基づく自己回帰機構に置き換える。実験により,MM-UPTはQwen2.5-VL-7Bの推論能力を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-05-28T15:11:16Z)
MM-PRM: Enhancing Multimodal Mathematical Reasoning with Scalable Step-Level Supervision [27.571090189791303]
完全に自動化されたスケーラブルなフレームワーク内でトレーニングされたプロセス報酬モデルであるMM-PRMを提案する。我々はまず,多様な数学的推論データに基づいて訓練された強力なマルチモーダルモデルMM-Policyを構築した。人間のラベル付けなしで700万以上のステップレベルのアノテーションを生成します。
論文参考訳（メタデータ） (2025-05-19T17:55:08Z)
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning [35.429904556288996]
我々は、コード検証を伴う明示的なChain-of-Thought(CoT)推論を行う生成プロセス報酬モデルGenPRMを紹介する。実験の結果,GenPRMはMATHデータセットから23Kのトレーニングデータしか得られず,従来のPRMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-04-01T15:21:05Z)
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning [76.35753243272521]
既存のマルチモーダル大言語モデル(MLLM)の推論能力を改善するVisualPRMを導入する。我々のモデルは7つのマルチモーダル推論ベンチマークで5.9ポイントの改善を実現している。マルチモーダルPRMの評価のために,人間に注釈付きステップワイズラベルを付したベンチマークであるVisualProcessBenchを提案する。
論文参考訳（メタデータ） (2025-03-13T12:03:37Z)
MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文参考訳（メタデータ） (2025-03-10T14:23:12Z)
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action [103.5952731807559]
複雑・多段階・多モードタスクの性能向上を目的とした多モード大規模アクションモデルであるTACOを提案する。推論中、TACOはチェーン・オブ・シント・アンド・アクション(CoTA)を生成し、OCR、深さ推定、電卓などの外部ツールを呼び出すことで中間ステップを実行する。このデータセットにより、TACOは複雑な推論とアクションパスを学習し、直接回答だけでチューニングデータに基づいてトレーニングされた既存のモデルを上回ることができる。
論文参考訳（メタデータ） (2024-12-07T00:42:04Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization [65.64108848398696]
我々は、MLLMのマルチモーダル推論能力を高めるために、選好最適化(PO)プロセスを導入する。具体的には、自動選好データ構築パイプラインを設計し、高品質で大規模なマルチモーダル推論選好データセットであるMMPRを作成する。マルチモーダルCoT性能を向上するMPO(Mixed Preference Optimization)と呼ばれるシンプルな手法を開発した。
論文参考訳（メタデータ） (2024-11-15T18:59:27Z)
Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement [71.46993852662021]
Qwen2.5-Math と Qwen2.5-Math-Instruct-1.5B/7B/72B である。 Qwen2.5-Math-Instructは中国語と英語の両方をサポートし、高度な数学的推論能力を持っている。
論文参考訳（メタデータ） (2024-09-18T16:45:37Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning [13.728595670907136]
InfinityMATHは、プログラム数学的推論のためのスケーラブルな命令チューニングデータセットである。オープンソースの言語とLlama2やCodeLlamaといったコードモデルによる微調整実験は、InfinityMATHの実用的メリットを実証している。
論文参考訳（メタデータ） (2024-08-09T08:18:20Z)
Skywork-Math: Data Scaling Laws for Mathematical Reasoning in Large Language Models -- The Story Goes On [55.449818944278526]
一般的な7B言語モデル上での教師付き微調整(SFT)であるSkywork-Mathモデルシリーズを紹介する。 Skywork-Math 7Bは競争レベルのMATHベンチマークで51.2%の精度を達成した。我々は,LLMの数学推論能力を高めるために,研究用と産業用の両方で,いくつかの実践的なテイクアウトを提供する。
論文参考訳（メタデータ） (2024-07-11T09:56:51Z)
M$^3$CoT: A Novel Benchmark for Multi-Domain Multi-step Multi-modal Chain-of-Thought [50.576016777061724]
MCoT(Multi-modal Chain-of-Thought)は、ステップバイステップ推論において、テキストと視覚の両方のモダリティからの知識を活用するモデルを必要とする。現在のMCoTベンチマークでは、(1)視覚的モーダル推論の欠如、(2)単段階視覚的モーダル推論の欠如、(3)ドメインの欠如など、いくつかの課題に直面している。上記の課題に対処するための新しいベンチマーク(M$3$CoT)を導入し、マルチドメイン、マルチステップ、マルチモーダルCoTを推進した。
論文参考訳（メタデータ） (2024-05-26T07:56:30Z)
MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。 Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文参考訳（メタデータ） (2024-05-25T15:07:33Z)
Markovian Transformers for Informative Language Modeling [0.9642500063568188]
CoT(Chain-of-Thought)推論は言語モデルのアウトプットを説明する上で大きな可能性を秘めている。我々はCoTを2つの重要なコンポーネントを通じて予測に因果的に必要としており、中間のCoTテキストを通して次のトークンを予測することと、他のコンテキストとは独立して将来のトークンを予測するためにCoTを訓練する。
論文参考訳（メタデータ） (2024-04-29T17:36:58Z)
DIMAT: Decentralized Iterative Merging-And-Training for Deep Learning Models [21.85879890198875]
Decentralized Iterative Merging-And-Training (DIMAT) は、新しい分散深層学習アルゴリズムである。 DIMATは, 独立・同一分散(IID)および非IIDデータを用いて, 通信オーバヘッドの低減を図ることにより, より高速かつ高い初期ゲインが得られることを示す。このDIMATパラダイムは未来の分散学習に新たな機会を与え、疎結合な通信計算で現実世界への適応性を高める。
論文参考訳（メタデータ） (2024-04-11T18:34:29Z)
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。 KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。 KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文参考訳（メタデータ） (2024-03-04T18:58:30Z)
How Do Humans Write Code? Large Models Do It the Same Way Too [14.954886191356342]
Program-of-Thought(PoT)は、自然言語ベースのChain-of-Thought(CoT)を、大規模言語モデルにおいて最も一般的な方法として置き換える。 PoTを使用すると、CoTと比較して、不正な公式や欠陥論理などの推論エラーがより多く導入される。本稿では,PoTとCoTの統合を支援する一連の戦略を活用するHTL(Human-Think Language)を提案する。
論文参考訳（メタデータ） (2024-02-24T05:40:01Z)
MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。 5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文参考訳（メタデータ） (2024-02-14T05:57:58Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文参考訳（メタデータ） (2023-02-02T07:51:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。