論文の概要: Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms
- arxiv url: http://arxiv.org/abs/2506.06499v1
- Date: Fri, 06 Jun 2025 19:49:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.035387
- Title: Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms
- Title(参考訳): 品質多様性アルゴリズムによる推論のための合成問題生成
- Authors: Alex Havrilla, Edward Hughes, Mikayel Samvelyan, Jacob Abernethy,
- Abstract要約: SPARQ: Quality-Diversity Algorithmによる推論のための合成問題生成について述べる。
1つのモデルのみを用いて高品質で多様な合成数学問題と解対を生成する。
本研究では, 生成したデータを難易度でフィルタリングし, 同じモデルを微調整することで, 相対モデルの性能を最大24%向上させることを示す。
- 参考スコア(独自算出の注目度): 4.569384312180347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) driven synthetic data generation has emerged as a powerful method for improving model reasoning capabilities. However, most methods either distill large state-of-the-art models into small students or use natural ground-truth problem statements to guarantee problem statement quality. This limits the scalability of these approaches to more complex and diverse problem domains. To address this, we present SPARQ: Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms, a novel approach for generating high-quality and diverse synthetic math problem and solution pairs using only a single model by measuring a problem's solve-rate: a proxy for problem difficulty. Starting from a seed dataset of 7.5K samples, we generate over 20 million new problem-solution pairs. We show that filtering the generated data by difficulty and then fine-tuning the same model on the resulting data improves relative model performance by up to 24\%. Additionally, we conduct ablations studying the impact of synthetic data quantity, quality and diversity on model generalization. We find that higher quality, as measured by problem difficulty, facilitates better in-distribution performance. Further, while generating diverse synthetic data does not as strongly benefit in-distribution performance, filtering for more diverse data facilitates more robust OOD generalization. We also confirm the existence of model and data scaling laws for synthetically generated problems, which positively benefit downstream model generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)による合成データ生成は、モデル推論機能を改善するための強力な方法として登場した。
しかし、ほとんどの手法は、大きな最先端モデルを小学生に蒸留するか、または問題文の品質を保証するために自然の地味な問題文を使用する。
これにより、これらのアプローチのスケーラビリティはより複雑で多様な問題領域に制限される。
そこで,SPARQ: Synthetic Problem Generation for Reasoning via Quality-Diversity Algorithms, a novel approach for a high-quality and diverse synthesis math problem and solution pairs using a single model by measured a problem's solve-rate, a proxy for problem difficulty。
7.5Kサンプルのシードデータセットから始めて、2000万以上の新しい問題解決ペアを生成します。
生成したデータを困難にフィルタリングし、結果データ上で同じモデルを微調整することで、相対モデルの性能が最大24倍向上することを示す。
さらに,合成データ量,品質,多様性がモデル一般化に与える影響について検討する。
問題難易度によって測定された高い品質は、流通性能の向上を促進する。
さらに, 多様な合成データを生成することは, 分散性能にはあまり寄与しないが, より多様なデータに対するフィルタリングにより, より堅牢なOOD一般化が促進される。
また, 合成問題に対するモデルおよびデータスケーリング法則の存在を確認し, 下流モデル一般化に有効であることを示す。
関連論文リスト
- BARE: Leveraging Base Language Models for Few-Shot Synthetic Data Generation [71.46236155101032]
現在のデータ生成法は、数万の例を含むシードセットに依存して、命令調整されたモデルを実行している。
いくつか例を挙げると、インストラクションチューニングモデルでは、下流タスクの多様性が不十分であることが分かる。
本研究では,ベースモデルの多様性と命令調整モデルの品質保証を両立させる新しい2段階手法であるBase-Refineを提案する。
論文 参考訳(メタデータ) (2025-02-03T00:12:40Z) - Surveying the Effects of Quality, Diversity, and Complexity in Synthetic Data From Large Language Models [12.85318938363753]
データ品質,多様性,複雑性の観点から,各アルゴリズムが生成した合成データの構成によるアルゴリズムの評価を行った。
合成データパイプラインにおける各種成分が各データ特性に与える影響について検討する。
これらのトレードオフのバランスは、将来の自己改善アルゴリズムの開発に不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (2024-12-04T02:47:45Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Improving Question Answering Model Robustness with Synthetic Adversarial
Data Generation [41.9785159975426]
最先端の質問応答モデルは、様々な敵の攻撃を受けやすいままであり、人間レベルの言語理解を得るには程遠い。
提案されている1つの方法は動的逆データ収集であり、人間のアノテータがループ内のモデルが失敗する例を作成しようとするものである。
本研究では,合成逆データ生成パイプラインを構成する複数の回答選択,質問生成,フィルタリング手法について検討する。
合成データと人為的データの両方で訓練されたモデルは、合成逆数データで訓練されていないモデルより優れ、対数上での最先端の結果を得る
論文 参考訳(メタデータ) (2021-04-18T02:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。