論文の概要: AgenticMath: Enhancing LLM Reasoning via Agentic-based Math Data Generation
- arxiv url: http://arxiv.org/abs/2510.19361v1
- Date: Wed, 22 Oct 2025 08:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.424893
- Title: AgenticMath: Enhancing LLM Reasoning via Agentic-based Math Data Generation
- Title(参考訳): AgenticMath:エージェントベースの数学データ生成によるLLM推論の強化
- Authors: Xianyang Liu, Yilin Liu, Shuai Wang, Hao Cheng, Andrew Estornell, Yuzhi Zhao, Jiaheng Wei,
- Abstract要約: AgenticMathは、高品質な数学的質問応答ペアを生成するための新しいエージェントパイプラインである。
提案手法は,(1)高情報豊かさ,複雑性,明快さの質問を選択できるシード質問フィルタ,(2)多エージェントシステムを用いて多様な論理的一貫したパラフレーズを生成するエージェント質問文生成ステップ,(3)チェーン・オブ・シークレット推論を用いて回答を書き直し,数値的および論理的正当性を高めるアンサー拡張ステップの4段階を通じて機能する。
- 参考スコア(独自算出の注目度): 27.20238706824152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The creation of high-quality datasets to improve Large Language Model (LLM) reasoning remains a significant challenge, as current methods often suffer from generating low-quality/incorrect answers and limited information richness from available data sources. To address this, we propose AgenticMath, a novel agentic pipeline for generating high-quality mathematical question-answer pairs to enhance the supervised fine-tuning of LLMs. Our method operates through four stages: (1) Seed Question Filter that selects questions with high information richness, complexity, and clarity; (2) an Agentic Question Rephrase step that employs a multi-agent system to generate diverse, logically consistent paraphrases; (3) an Answer Augment step where rewrite answers using chain-of-thought reasoning to enhance numerical and logical correctness, without reliance on human-provided labels; and (4) a final Question and Answer Evaluation that retains only the most superior pairs. Extensive experiments demonstrate that, fine-tuning 3B-8B parameter LLMs on AgenticMath generated datasets (comprising only 30-60K math samples) achieves competitive or superior performance on diverse in domain and out-of-domain mathematical reasoning benchmarks compared to baselines trained on much more data (e.g., 400K or 2.3M samples). Our work demonstrates that targeted, high-quality data generation is a more efficient path to improving mathematical reasoning in LLMs than large-scale, low-quality alternatives.
- Abstract(参考訳): LLM(Large Language Model)推論を改善するための高品質なデータセットの作成は、現行の手法では、低品質/不正な回答と、利用可能なデータソースからの限られた情報リッチネスをしばしば発生させるため、依然として大きな課題である。
そこで我々は,LLMの教師付き微調整を強化するために,高品質な数学的問合せペアを生成する新しいエージェントパイプラインであるAgenticMathを提案する。
提案手法は,(1)高い情報豊かさ,複雑性,明快さの質問を選択するシード質問フィルタ,(2)多様な論理的一貫したパラフレーズを生成するためにマルチエージェントシステムを利用するエージェント質問文の表現ステップ,(3)人為的なラベルに頼らずに,数値的・論理的正当性を向上させるチェーン・オブ・プリート推論を用いて回答を書き換えるアンサー拡張ステップ,(4)最も優れたペアのみを保持する最終質問文とアンサー評価,の4段階を通じて機能する。
大規模な実験では、AgenicMathで生成されたデータセット(30-60Kの数学サンプルのみを含む)の3B-8Bパラメータの微調整が、多くのデータ(例えば400Kまたは2.3Mサンプル)でトレーニングされたベースラインと比較して、ドメインや外部の数学的推論のベンチマークにおいて、競争力または優れたパフォーマンスを達成することが示されている。
我々の研究は、LLMの数学的推論を改善するための、大規模で高品質なデータ生成が、大規模で低品質な代替手段よりも効率的な方法であることを実証している。
関連論文リスト
- Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - General Purpose Verification for Chain of Thought Prompting [16.381123651223763]
大規模言語モデル(LLM)の推論能力を改善する方法について検討する。
我々は、モデルが推論中に従うべき3つの一般的な原則を提案する。
これらの制約をLLMが生成する推論ステップに適用し、最終生成の精度を向上させる。
論文 参考訳(メタデータ) (2024-04-30T21:15:17Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。