論文の概要: DéjàQ: Open-Ended Evolution of Diverse, Learnable and Verifiable Problems
- arxiv url: http://arxiv.org/abs/2601.01931v1
- Date: Mon, 05 Jan 2026 09:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.940873
- Title: DéjàQ: Open-Ended Evolution of Diverse, Learnable and Verifiable Problems
- Title(参考訳): DéjàQ: 多様性、学習可能、検証可能な問題のオープンエンド進化
- Authors: Willem Röpke, Samuel Coward, Andrei Lupu, Thomas Foster, Tim Rocktäschel, Jakob Foerster,
- Abstract要約: DéjQは、モデルトレーニングと並行して、多様な数学的問題の集合を進化させるフレームワークである。
この進化過程は訓練を通じてモデルの能力に適応し、学習可能性に関する問題を最適化する。
このモデルが新規で有意義な問題を生じさせ,これらのLSMによる突然変異がRLトレーニングを改善することが判明した。
- 参考スコア(独自算出の注目度): 19.381443841718596
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent advances in reasoning models have yielded impressive results in mathematics and coding. However, most approaches rely on static datasets, which have been suggested to encourage memorisation and limit generalisation. We introduce DéjàQ, a framework that departs from this paradigm by jointly evolving a diverse set of synthetic mathematical problems alongside model training. This evolutionary process adapts to the model's ability throughout training, optimising problems for learnability. We propose two LLM-driven mutation strategies in which the model itself mutates the training data, either by altering contextual details or by directly modifying problem structure. We find that the model can generate novel and meaningful problems, and that these LLM-driven mutations improve RL training. We analyse key aspects of DéjàQ, including the validity of generated problems and computational overhead. Our results underscore the potential of dynamically evolving training data to enhance mathematical reasoning and indicate broader applicability, which we will support by open-sourcing our code.
- Abstract(参考訳): 推論モデルの最近の進歩は、数学とコーディングにおいて印象的な結果をもたらした。
しかし、ほとんどのアプローチは静的データセットに依存しており、記憶の促進と一般化の制限が提案されている。
DéjàQは、モデルトレーニングと並行して、多様な数学的問題の集合を共同で進化させることによって、このパラダイムから逸脱するフレームワークである。
この進化過程は訓練を通じてモデルの能力に適応し、学習可能性に関する問題を最適化する。
LLMによる2つの突然変異戦略を提案し、モデル自体が文脈的詳細を変更するか、問題構造を直接修正することによってトレーニングデータを変異させる。
このモデルが新規で有意義な問題を生じさせ,これらのLSMによる突然変異がRLトレーニングを改善することが判明した。
生成した問題の妥当性や計算オーバーヘッドなど,DéjàQの重要な側面を分析する。
我々の結果は、数学的推論を強化し、より広範な適用可能性を示すために、動的に進化するトレーニングデータの可能性を強調し、コードをオープンソース化することでサポートします。
関連論文リスト
- C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning [78.36259648527401]
C2-Evoは、トレーニングデータとモデル機能の両方を共同で進化させる、自動クローズドループ自己改善フレームワークである。
C2-Evoは、複数の数学的推論ベンチマークにおいて、一定の性能向上が得られることを示す。
論文 参考訳(メタデータ) (2025-07-22T12:27:08Z) - Self-Evolved Preference Optimization for Enhancing Mathematical Reasoning in Small Language Models [17.673293240849787]
我々は、小言語モデル(SLM)における推論を強化する自己進化型データ生成パイプラインSPHEREを紹介する。
SPHEREは、 (i) 自己生成(Self-Generation)、 (ii) 自己補正(Self-Correction)、 (iii) 多様性誘導(diversity induction)、そして、複数の有効な推論軌道を通じて堅牢性を改善する。
本研究では,SPHERE学習モデルがベースバージョンよりも大幅に向上し,特定のベンチマークでGPT-4oにマッチすることを示す。
論文 参考訳(メタデータ) (2025-03-04T14:43:25Z) - Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch [54.12139707822201]
本稿では,新しい,スケーラブルで費用対効果の高いデータ合成手法であるScaleQuestを提案する。
スクラッチから多様な質問を生成することで、100万の問題解決ペアのデータセットを生成します。
私たちの実験では、データに基づいてトレーニングされたモデルが、既存のオープンソースデータセットより優れています。
論文 参考訳(メタデータ) (2024-10-24T12:42:04Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Large Language Models as Surrogate Models in Evolutionary Algorithms: A Preliminary Study [5.6787965501364335]
サロゲートアシスト選択は、高価な最適化問題を解決する進化アルゴリズムの中核的なステップである。
伝統的に、これは従来の機械学習手法に依存しており、過去の評価を利用して新しいソリューションの性能を予測する。
本研究では,LLM推論機能に基づいた新しいサロゲートモデルを提案する。
論文 参考訳(メタデータ) (2024-06-15T15:54:00Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。