論文の概要: MDPO: Multi-Granularity Direct Preference Optimization for Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2506.15706v1
- Date: Fri, 30 May 2025 08:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.772794
- Title: MDPO: Multi-Granularity Direct Preference Optimization for Mathematical Reasoning
- Title(参考訳): MDPO:数理推論のためのマルチグラニュラリティ直接選好最適化
- Authors: Yunze Lin,
- Abstract要約: 大規模言語モデル(LLM)の数学的推論を最適化するMDPO(Multi-Granularity Direct Preference Optimization)法を提案する。
我々はオープンソースのQwen2とLlama3で実験を行い、GSM8Kデータセットで1.7%と1.2%、MATHデータセットで2.3%と1.2%の改善を実現した。
また、MDPOトレーニングデータを構築するためのパイプラインも提供しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mathematical reasoning presents a significant challenge for Large Language Models (LLMs) as it requires ensuring the correctness of each reasoning step. Researchers have been strengthening the mathematical reasoning abilities of LLMs through supervised fine-tuning, but due to the inability to suppress incorrect outputs, illusions can easily arise. Recently, Direct Preference Optimization (DPO) has been widely adopted for aligning human intent by using preference data to prevent LLMs from generating incorrect outputs. However, it has shown limited benefits in long-chain mathematical reasoning, mainly because DPO struggles to effectively capture the differences between accepted and rejected answers from preferences in long-chain data. The inconsistency between DPO training and LLMs' generation metrics also affects the effectiveness of suppressing incorrect outputs. We propose the Multi-Granularity Direct Preference Optimization (MDPO) method, optimizing the mathematical reasoning of LLMs at three granularities: Solution2Solution, Inference2Inference, and Step2Step. Solution2Solution focuses on the correctness of entire long-chain reasoning; Inference2Inference concentrates on logical reasoning between steps; Step2Step corrects computational errors in steps, enhancing the computational capabilities of LLMs. Additionally, we unify the training objectives of the three granularities to align with the generation metrics. We conducted experiments on the open-source models Qwen2 and Llama3, achieving improvements of 1.7% and 0.9% on the GSM8K dataset, and 2.3% and 1.2% on the MATH dataset, outperforming DPO and other DPO variant methods. Furthermore, we also provide a pipeline for constructing MDPO training data that is simple and does not require manual annotation costs.
- Abstract(参考訳): 数学的推論は、各推論ステップの正しさを保証する必要があるため、Large Language Models (LLM) にとって重要な課題となる。
LLMの数学的推論能力は、教師付き微調整によって強化されてきたが、誤った出力を抑えることができないため、錯覚が容易に生じる可能性がある。
近年,LLMが不正な出力を生成するのを防ぐための選好データを用いて人間の意図の整合を図るために,直接選好最適化(DPO)が広く採用されている。
しかし、長鎖の数学的推論においては、DPOが長鎖のデータからの選好からの回答と受理された回答の違いを効果的に捉えるのに苦慮しているため、利点が限られている。
DPOトレーニングとLLMの生成指標の矛盾は、誤った出力を抑える効果にも影響を及ぼす。
本稿では,LLMの3つの粒度での数学的推論を最適化するMDPO法を提案する。
Inference2Inferenceはステップ間の論理的推論に集中し、Step2Stepはステップ内の計算エラーを修正し、LLMの計算能力を向上させる。
さらに、3つの粒度のトレーニング目標をまとめて、生成指標と整合させる。
我々はオープンソースモデルQwen2とLlama3の実験を行い、GSM8Kデータセットでは1.7%と0.9%の改善、MATHデータセットでは2.3%と1.2%の改善、DPOや他のDPO変種法よりも優れていた。
さらに、MDPOトレーニングデータを構築するためのパイプラインも提供しています。
関連論文リスト
- Effective Reinforcement Learning for Reasoning in Language Models [30.994610715391776]
強化学習(Reinforcement Learning, RL)は、数学やコーディングといった分野における言語モデル(LM)の推論能力を改善するための有望な戦略として登場した。
我々は,計算制約による比較的小さなモデルに焦点をあて,LM推論のためのRLアルゴリズム設計決定を解析する。
その結果, (i) オンラインRLは, 教師付き微調整(SFT)よりも優れ, (ii) PPOをベースとしたオフポリチクスの更新により, ばらつきを抑えて精度が向上し, (iii) KLのばらつきの除去により, より簡潔な世代と精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:48:09Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。