論文の概要: MARGE: Improving Math Reasoning for LLMs with Guided Exploration
- arxiv url: http://arxiv.org/abs/2505.12500v1
- Date: Sun, 18 May 2025 17:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.268009
- Title: MARGE: Improving Math Reasoning for LLMs with Guided Exploration
- Title(参考訳): MARGE: ガイド付き探索によるLLMの数学的推論の改善
- Authors: Jingyue Gao, Runji Lin, Keming Lu, Bowen Yu, Junyang Lin, Jianyu Chen,
- Abstract要約: 大規模言語モデル(LLM)は、数学的推論において強い可能性を示すが、その有効性は高品質なクエリの不足によって制限されることが多い。
textbfMath textbfReasoning with textbfGuided textbfExploration。
MARGEは、自己生成ソリューションに由来する中間的推論状態を体系的に探索し、適切な探索と信用割当の改善を可能にする。
- 参考スコア(独自算出の注目度): 31.311075009100048
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit strong potential in mathematical reasoning, yet their effectiveness is often limited by a shortage of high-quality queries. This limitation necessitates scaling up computational responses through self-generated data, yet current methods struggle due to spurious correlated data caused by ineffective exploration across all reasoning stages. To address such challenge, we introduce \textbf{MARGE}: Improving \textbf{Ma}th \textbf{R}easoning with \textbf{G}uided \textbf{E}xploration, a novel method to address this issue and enhance mathematical reasoning through hit-guided exploration. MARGE systematically explores intermediate reasoning states derived from self-generated solutions, enabling adequate exploration and improved credit assignment throughout the reasoning process. Through extensive experiments across multiple backbone models and benchmarks, we demonstrate that MARGE significantly improves reasoning capabilities without requiring external annotations or training additional value models. Notably, MARGE improves both single-shot accuracy and exploration diversity, mitigating a common trade-off in alignment methods. These results demonstrate MARGE's effectiveness in enhancing mathematical reasoning capabilities and unlocking the potential of scaling self-generated training data. Our code and models are available at \href{https://github.com/georgao35/MARGE}{this link}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論において強い可能性を示すが、その有効性は高品質なクエリの不足によって制限されることが多い。
この制限は、自己生成データによる計算応答のスケールアップを必要とするが、現在の手法は、すべての推論段階における非効率な探索によって引き起こされる急激な相関データのために苦労している。
このような課題に対処するために、我々は \textbf{MARGE}: Improving \textbf{Ma}th \textbf{R}easoning with \textbf{G}uided \textbf{E}xploration, a novel method to address this problem and enhance mathematical reasoning through hit-guided Explor。
MARGEは、自己生成ソリューションから派生した中間的推論状態を体系的に探索し、推論プロセスを通じて適切な探索と信用割当の改善を可能にする。
複数のバックボーンモデルとベンチマークにわたる広範な実験を通じて、MARGEは外部アノテーションを必要とせずに推論能力を大幅に改善し、付加価値モデルをトレーニングすることを示した。
特に、MARGEは単発精度と探索の多様性の両方を改善し、アライメント手法における共通のトレードオフを軽減する。
これらの結果は、MARGEが数学的推論能力を向上し、自己生成したトレーニングデータをスケールする可能性を解き放つ上で有効であることを示す。
私たちのコードとモデルは、 \href{https://github.com/georgao35/MARGE}{this link}で利用可能です。
関連論文リスト
- Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [50.9814063216852]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - REMAX: Relational Representation for Multi-Agent Exploration [13.363887960136102]
ゲームの初期状態を生成する学習ベースの探索戦略を提案する。
本手法は,既存の探査手法よりも,MARLモデルの訓練と性能を向上させることを実証する。
論文 参考訳(メタデータ) (2020-08-12T10:23:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。