論文の概要: RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library
- arxiv url: http://arxiv.org/abs/2504.20426v1
- Date: Tue, 29 Apr 2025 04:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.754781
- Title: RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library
- Title(参考訳): RV-Syn:構造化関数ライブラリに基づく合理的かつ検証可能な数学的推論データ合成
- Authors: Jiapeng Wang, Jinhao Jiang, Zhiqiang Zhang, Jun Zhou, Wayne Xin Zhao,
- Abstract要約: RV-Synは、新しい数学的合成手法である。
このライブラリからPython形式の関数を組み合わせることで、グラフをソリューションとして生成する。
構築したグラフに基づいて,解誘導論理認識問題生成を実現する。
- 参考スコア(独自算出の注目度): 58.404895570822184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of reasoning capabilities in Large Language Models (LLMs) requires substantial amounts of high-quality reasoning data, particularly in mathematics. Existing data synthesis methods, such as data augmentation from annotated training sets or direct question generation based on relevant knowledge points and documents, have expanded datasets but face challenges in mastering the inner logic of the problem during generation and ensuring the verifiability of the solutions. To address these issues, we propose RV-Syn, a novel Rational and Verifiable mathematical Synthesis approach. RV-Syn constructs a structured mathematical operation function library based on initial seed problems and generates computational graphs as solutions by combining Python-formatted functions from this library. These graphs are then back-translated into complex problems. Based on the constructed computation graph, we achieve solution-guided logic-aware problem generation. Furthermore, the executability of the computational graph ensures the verifiability of the solving process. Experimental results show that RV-Syn surpasses existing synthesis methods, including those involving human-generated problems, achieving greater efficient data scaling. This approach provides a scalable framework for generating high-quality reasoning datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論能力の進歩は、特に数学において、かなりの量の高品質な推論データを必要とする。
注釈付きトレーニングセットからのデータ拡張や、関連する知識ポイントや文書に基づく直接質問生成といった既存のデータ合成手法は、データセットを拡張したが、生成時に問題の内部ロジックを習得し、ソリューションの妥当性を確保する上で課題に直面している。
これらの問題に対処するために,新しい論理的および検証可能な数学的合成手法であるRV-Synを提案する。
RV-Synは、初期シード問題に基づく構造化された数学的演算関数ライブラリを構築し、このライブラリからPython形式の関数を組み合わせることで、計算グラフを解として生成する。
これらのグラフは、複雑な問題に逆変換される。
構築された計算グラフに基づいて,解誘導論理認識問題生成を実現する。
さらに、計算グラフの実行可能性により、解法の妥当性が保証される。
実験の結果, RV-Synは人為的問題を含む既存の合成手法を超越し, より効率的なデータスケーリングを実現していることがわかった。
このアプローチは、高品質な推論データセットを生成するためのスケーラブルなフレームワークを提供する。
関連論文リスト
- Advancing Mathematical Reasoning in Language Models: The Impact of Problem-Solving Data, Data Synthesis Methods, and Training Stages [13.377908992869814]
問題解決データは、一般的な数学的コーパスと比較してモデルの数学的能力を大幅に向上させる。
本研究では, 効果的なデータ合成手法を同定し, チュータシップ増幅合成法が最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-01-23T12:14:57Z) - Bridging Visualization and Optimization: Multimodal Large Language Models on Graph-Structured Combinatorial Optimization [56.17811386955609]
グラフ構造上の課題は、その非線形で複雑な性質のために本質的に困難である。
本研究では,高次構造的特徴を正確に保存するために,グラフを画像に変換する手法を提案する。
マルチモーダルな大規模言語モデルと単純な検索手法を組み合わせた革新的なパラダイムを生かし、新しい効果的なフレームワークを開発することを目指す。
論文 参考訳(メタデータ) (2025-01-21T08:28:10Z) - Data Augmentation with Variational Autoencoder for Imbalanced Dataset [1.2289361708127877]
不均衡分布からの学習は予測モデリングにおいて大きな課題となる。
VAEとスムーズなブートストラップを組み合わせた新しいデータ生成手法を開発し,IRの課題に対処する。
論文 参考訳(メタデータ) (2024-12-09T22:59:03Z) - Discovering physical laws with parallel combinatorial tree search [57.05912962368898]
記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、科学研究において重要な役割を果たす。
既存のアルゴリズムは10年以上にわたって精度と効率の重大なボトルネックに直面してきた。
制約データから汎用数学的表現を効率的に抽出する並列木探索(PCTS)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - EPIC: Effective Prompting for Imbalanced-Class Data Synthesis in Tabular Data Classification via Large Language Models [39.347666307218006]
大規模言語モデル (LLM) は、多様なアプリケーションにまたがるテキスト内学習能力を示す。
バランスの取れたデータサンプルと一貫したフォーマットと独自の変数マッピングを併用した新しい手法であるEPICを導入し、不均衡なデータセットであっても、全てのクラスで正確な合成データを生成するのにLLMをガイドする。
論文 参考訳(メタデータ) (2024-04-15T17:49:16Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - A Differentiable Approach to Combinatorial Optimization using Dataless
Neural Networks [20.170140039052455]
我々は、ソリューションを生成するニューラルネットワークのトレーニングにデータを必要としないという、根本的に異なるアプローチを提案する。
特に、最適化問題をニューラルネットワークに還元し、データレストレーニングスキームを用いて、それらのパラメータが関心の構造をもたらすように、ネットワークのパラメータを洗練する。
論文 参考訳(メタデータ) (2022-03-15T19:21:31Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Learning Time-Varying Graphs from Online Data [39.21234914444073]
本研究では,オンラインデータから時間変化グラフを学習するアルゴリズムフレームワークを提案する。
モデルに依存しない、すなわち抽象的な定式化において理論的に解析することができる。
フレームワークを3つのよく知られたグラフ学習モデル、すなわちガウス図形モデル(GGM)、構造方程式モデル(SEM)、滑らか性に基づくモデル(SBM)に特化する。
論文 参考訳(メタデータ) (2021-10-21T09:46:44Z) - A Reinforcement Learning Environment for Mathematical Reasoning via
Program Synthesis [1.1602089225841632]
我々はDeepMindの数学データセットを強化学習環境に変換する。
環境における各アクションは、演算子または入力を離散計算グラフに追加する。
正解を計算するグラフは正の報酬をもたらし、ポリシーの最適化により問題文に条件付き計算グラフを構築することができる。
論文 参考訳(メタデータ) (2021-07-15T14:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。