論文の概要: Neuro-Symbolic Data Generation for Math Reasoning
- arxiv url: http://arxiv.org/abs/2412.04857v1
- Date: Fri, 06 Dec 2024 08:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 22:41:41.060845
- Title: Neuro-Symbolic Data Generation for Math Reasoning
- Title(参考訳): 数学推論のためのニューロシンボリックデータ生成
- Authors: Zenan Li, Zhi Zhou, Yuan Yao, Yu-Feng Li, Chun Cao, Fan Yang, Xian Zhang, Xiaoxing Ma,
- Abstract要約: 高品質な教師付き数学的データセットを自動生成する手法を開発した。
本手法は,既存の数学問題を慎重に変更し,新たに生成した問題の多様性と妥当性を両立させる。
実験により,提案手法により生成したデータの品質を実証し,LLaMA-2 と Mistral が最先端のデータを上回ることを示した。
- 参考スコア(独自算出の注目度): 47.00099724151703
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A critical question about Large Language Models (LLMs) is whether their apparent deficiency in mathematical reasoning is inherent, or merely a result of insufficient exposure to high-quality mathematical data. To explore this, we developed an automated method for generating high-quality, supervised mathematical datasets. The method carefully mutates existing math problems, ensuring both diversity and validity of the newly generated problems. This is achieved by a neuro-symbolic data generation framework combining the intuitive informalization strengths of LLMs, and the precise symbolic reasoning of math solvers along with projected Markov chain Monte Carlo sampling in the highly-irregular symbolic space. Empirical experiments demonstrate the high quality of data generated by the proposed method, and that the LLMs, specifically LLaMA-2 and Mistral, when realigned with the generated data, surpass their state-of-the-art counterparts.
- Abstract(参考訳): LLM(Large Language Models)に関する重要な疑問は、それらの数学的推論における明らかな欠如が固有のものなのか、それとも単に高品質な数学的データへの露出不足の結果なのかである。
そこで我々は,高品質な教師付き数学的データセットを自動生成する手法を開発した。
提案手法は,既存の数学問題を慎重に変更し,新たに生成した問題の多様性と妥当性を両立させる。
これは、LLMの直感的な非公式化強度と、マルコフ連鎖モンテカルロの高次不規則な記号空間における標本化とともに、数学解の正確な記号推論を組み合わせた、ニューロシンボリックデータ生成フレームワークによって達成される。
実験により,提案手法により生成されたデータの品質が向上し,LLaMA-2 と Mistral が得られたデータに適合すると,LLM が最先端のデータを上回ることを示す。
関連論文リスト
- RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library [58.404895570822184]
RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
論文 参考訳(メタデータ) (2025-04-29T04:42:02Z) - Lemmanaid: Neuro-Symbolic Lemma Conjecturing [4.583367875081881]
本稿では, 実用的神経シンボル型レムマ注入ツールLemmanaidについて紹介する。
レムマの形状を記述したレムマテンプレートを生成するためにLLMをトレーニングし、詳細を記入するためにシンボリックメソッドを使用します。
我々は,レマノイドを完全補題文を生成するために訓練されたLLMと,それ以前の完全記号推論法と比較した。
論文 参考訳(メタデータ) (2025-04-07T11:30:36Z) - Proving Olympiad Inequalities by Synergizing LLMs and Symbolic Reasoning [27.562284768743694]
大規模言語モデル(LLM)は、証明システム内で証明ステップを生成することによって、数学的定理を正式に証明することができる。
本稿では,LLMが学習した数学的直観と,記号的手法によって符号化された領域固有の洞察を相乗化する,ニューロシンボリック・戦術生成器を提案する。
複数の数学コンペティションから161の挑戦的不等式を評価する。
論文 参考訳(メタデータ) (2025-02-19T15:54:21Z) - MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.377908992869814]
問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。
本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-01-23T12:14:57Z) - An Evolutionary Large Language Model for Hallucination Mitigation [0.0]
本稿では,幻覚を最小化しながら高品質な質問応答データセットを生成するEvoLLMを提案する。
EvoLLMsは、Depth、Relevance、Coverageといった主要なメトリクスで、人間の生成データセットを一貫して上回る。
これらの結果は、EvoLLMをQAデータセット生成の堅牢で効率的なソリューションとして強調し、手作業によるキュレーションに必要な時間とリソースを大幅に削減した。
論文 参考訳(メタデータ) (2024-12-03T19:40:13Z) - Improving Mathematical Reasoning Capabilities of Small Language Models via Feedback-Driven Distillation [15.542737858152053]
大規模言語モデル(LLM)は例外的な推論能力を示し、様々なタスクで最先端のパフォーマンスを達成する。
有望な解決策は知識蒸留であり、LLMがSmall Language Models (SLM)に推論機能を移行し、低リソースデバイスへのより広範なデプロイを可能にする。
本研究では,SLMの数学的推論能力を高めるために,フィードバック駆動蒸留(FDD)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-22T03:12:39Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Discovering physical laws with parallel combinatorial tree search [57.05912962368898]
記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、科学研究において重要な役割を果たす。
既存のアルゴリズムは10年以上にわたって精度と効率の重大なボトルネックに直面してきた。
制約データから汎用数学的表現を効率的に抽出する並列木探索(PCTS)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning [110.80663974060624]
キーポイント駆動型データ合成(KPDDS)は質問応答対を合成する新しいデータ合成フレームワークである。
KPDDSは厳格な品質管理と相当なスケーラビリティを備えた新しい質問の生成を保証する。
KPMathは,800万以上の質問応答対から構成される,数学的推論に適した広範囲な合成データセットである。
論文 参考訳(メタデータ) (2024-03-04T18:58:30Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Generating Mathematical Derivations with Large Language Models [2.363388546004777]
シンボリックエンジンを利用して、スケールでの方程式の導出を生成する。
目的方程式を前提から導出する際の大規模言語モデルの能力について検討する。
論文 参考訳(メタデータ) (2023-07-19T14:13:02Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - Learning Mixtures of Low-Rank Models [89.39877968115833]
低ランクモデルの計算混合を学習する問題について検討する。
ほぼ最適サンプルを用いて未知の行列を復元することが保証されるアルゴリズムを開発する。
さらに,提案アルゴリズムはランダムノイズに対して確実に安定である。
論文 参考訳(メタデータ) (2020-09-23T17:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。