論文の概要: MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning
- arxiv url: http://arxiv.org/abs/2511.06805v1
- Date: Mon, 10 Nov 2025 07:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.14393
- Title: MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning
- Title(参考訳): MathSE: 自己進化的反復反射とリワード誘導ファインチューニングによるマルチモーダル数学的推論の改善
- Authors: Jinhao Chen, Zhen Yang, Jianxin Shi, Tianyu Wo, Jie Tang,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は視覚言語対応タスクにおいて顕著な機能を示した。
これまでの研究は、特殊な数学的データセットの微調整に重点を置いてきた。
メソッドは推論、リフレクション、報酬に基づくフィードバックのサイクルを通じてモデルを反復的に洗練する。
MathVL-testの結果は、主要なオープンソースマルチモーダル数学的推論モデルQVQを上回った。
- 参考スコア(独自算出の注目度): 20.82742383613536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in vision-language answering tasks. Despite their strengths, these models often encounter challenges in achieving complex reasoning tasks such as mathematical problem-solving. Previous works have focused on fine-tuning on specialized mathematical datasets. However, these datasets are typically distilled directly from teacher models, which capture only static reasoning patterns and leaving substantial gaps compared to student models. This reliance on fixed teacher-derived datasets not only restricts the model's ability to adapt to novel or more intricate questions that extend beyond the confines of the training data, but also lacks the iterative depth needed for robust generalization. To overcome these limitations, we propose \textbf{\method}, a \textbf{Math}ematical \textbf{S}elf-\textbf{E}volving framework for MLLMs. In contrast to traditional one-shot fine-tuning paradigms, \method iteratively refines the model through cycles of inference, reflection, and reward-based feedback. Specifically, we leverage iterative fine-tuning by incorporating correct reasoning paths derived from previous-stage inference and integrating reflections from a specialized Outcome Reward Model (ORM). To verify the effectiveness of \method, we evaluate it on a suite of challenging benchmarks, demonstrating significant performance gains over backbone models. Notably, our experimental results on MathVL-test surpass the leading open-source multimodal mathematical reasoning model QVQ. Our code and models are available at \texttt{https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/}.
- Abstract(参考訳): マルチモーダル大規模言語モデル (MLLM) は視覚言語対応タスクにおいて顕著な機能を示した。
その強みにもかかわらず、これらのモデルは数学的な問題解決のような複雑な推論タスクを達成する際の課題にしばしば遭遇する。
これまでの研究は、特殊な数学的データセットの微調整に重点を置いてきた。
しかし、これらのデータセットは通常、教師モデルから直接蒸留され、静的推論パターンのみをキャプチャし、学生モデルと比較してかなりのギャップを残す。
この固定教師由来のデータセットへの依存は、トレーニングデータの制限を超えて広がる新しい、あるいはより複雑な質問に適応する能力を制限するだけでなく、堅牢な一般化に必要な反復的な深さも欠いている。
これらの制限を克服するために、MLLM のための textbf{Math}ematical \textbf{S}elf-\textbf{E}volving framework である \textbf{\method} を提案する。
従来のワンショット微調整パラダイムとは対照的に、‘method’は推論、リフレクション、報酬に基づくフィードバックのサイクルを通じてモデルを反復的に洗練する。
具体的には、前段階の推論から導かれる正しい推論経路を組み込んで、特殊なアウトカム・リワード・モデル(ORM)からのリフレクションを統合することで、反復的な微調整を活用する。
そこで,<method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</method</met
特に、MathVL-testの実験結果は、主要なオープンソースマルチモーダル数学的推論モデルQVQを上回った。
私たちのコードとモデルは、texttt{https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/}で利用可能です。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - WarriorMath: Enhancing the Mathematical Ability of Large Language Models with a Defect-aware Framework [42.74246647841103]
WarriorMathは数学的問題解決のための欠陥認識フレームワークである。
我々は、複数の専門家のLLMを協調的なプロセスで採用し、問題を生成、批判、洗練させます。
トレーニング段階において、我々は、その弱点に合わせてますます困難なデータを用いてモデルを反復的に微調整する進歩的学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-08-02T07:45:12Z) - From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought [43.07899102255169]
現在のメソッドは主に肯定的な論理に重点を置いており、通常は手動のアノテーションや複雑なシステムに依存している。
textbfSelf-Aligning textbfMultimodal Reasoning with textbfAnswertextbfriented Chain-of-textbfThought。
論文 参考訳(メタデータ) (2025-07-01T08:24:51Z) - Does Math Reasoning Improve General LLM Capabilities? Understanding Transferability of LLM Reasoning [75.31797502976802]
幅広いタスクからなる20以上のオープンウェイト推論チューニングモデルを評価した。
数学で成功するほとんどのモデルは、利得を他の領域に移すことができない。
以上の結果から,標準のポストトレーニングレシピを再考する必要性が示唆された。
論文 参考訳(メタデータ) (2025-07-01T05:23:05Z) - MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [47.98592958615677]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - Enhancing LLM Reasoning via Critique Models with Test-Time and Training-Time Supervision [120.40788744292739]
本稿では、推論と批判モデルの役割を分離する2人プレイヤパラダイムを提案する。
まず、批判データを収集する自動化およびスケーラブルなフレームワークであるAutoMathCritiqueを提案する。
テスト時間における難解なクエリに対するアクターのパフォーマンスを,批判モデルが一貫して改善することが実証された。
論文 参考訳(メタデータ) (2024-11-25T17:11:54Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。