論文の概要: Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution
- arxiv url: http://arxiv.org/abs/2509.24726v1
- Date: Mon, 29 Sep 2025 12:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.987848
- Title: Socratic-Zero : Bootstrapping Reasoning via Data-Free Agent Co-evolution
- Title(参考訳): Socratic-Zero : データフリーエージェント共進化によるブートストラップ推論
- Authors: Shaobo Wang, Zhengbo Jiao, Zifan Zhang, Yilang Peng, Xu Ze, Boyu Yang, Wei Wang, Hu Wei, Linfeng Zhang,
- Abstract要約: Socratic-Zeroは、最小限のシード例から高品質なトレーニングデータを生成する、完全に自律的なフレームワークである。
このシステムは、既存のタスクやラベルを必要とせずに、自己改善カリキュラムを生成する。
Socratic-r-8Bは、以前のデータ合成法よりも平均的に+20.2ポイント向上する。
- 参考スコア(独自算出の注目度): 11.474213670364572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in large language models (LLMs) on reasoning tasks rely heavily on massive, high-quality datasets-typically human-annotated and thus difficult to scale. While data synthesis or distillation offers a promising alternative, existing methods struggle with inconsistent data quality and an inability to dynamically adapt to the evolving capabilities of the model, leading to suboptimal training signals. To address these limitations, we introduce Socratic-Zero, a fully autonomous framework that generates high-quality training data from minimal seed examples through the co-evolution of three agents: the Teacher, the Solver, and the Generator. The Solver continuously refines its reasoning by learning from preference feedback on both successful and failed trajectories; the Teacher adaptively crafts increasingly challenging questions based on the Solver's weaknesses; and the Generator distills the Teacher's question-design strategy to enable scalable, high-fidelity curriculum generation. This closed-loop system produces a self-improving curriculum-requiring no pre-existing tasks or labels. Remarkably, starting from only 100 seed questions, our Socratic-Solver-8B achieves an average gain of +20.2 percentage points over prior data synthesis methods across seven mathematical reasoning benchmarks (AMC23, AIME24-25, Olympiad, MATH-500, Minerva, and GSM8K), with consistent gains on both Qwen3 and GLM4 series models. Even more surprisingly, synthetic data from Socratic-Generator-32B enables student LLMs to achieve superior performance compared to other state-of-the-art (SOTA) commercial LLMs on these benchmarks, including Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4, and Claude-4.1-Opus.
- Abstract(参考訳): 推論タスクに関する大規模言語モデル(LLM)の最近のブレークスルーは、大規模で高品質なデータセットに大きく依存している。
データ合成や蒸留は有望な代替手段であるが、既存の方法は一貫性のないデータ品質に苦しむとともに、モデルの進化する能力に動的に適応できないため、準最適トレーニング信号が導かれる。
このような制限に対処するために、私たちは、教師、ソルバー、ジェネレータの3つのエージェントの共進化を通じて、最小限のシード例から高品質なトレーニングデータを生成する、完全に自律的なフレームワークであるSocratic-Zeroを紹介します。
ソルバーは成功と失敗の両方の軌道に関する好みのフィードバックから学び、教師はソルバーの弱点に基づいた挑戦的な質問を適応的に作り、ジェネレータは、スケーラブルで高忠実なカリキュラム生成を可能にするために教師の質問設計戦略を蒸留する。
このクローズドループシステムは、既存のタスクやラベルを必要としない自己改善カリキュラムを生成する。
注目すべきは、たった100の種問から始めて、私たちのソクラティック・ソルバー8Bは、7つの数学的推論ベンチマーク(AMC23、AIME24-25、Olympiad、MATH-500、Minerva、GSM8K)において、先行データ合成法よりも平均+20.2ポイント向上し、Qwen3とGLM4の両モデルで一貫した利得を得たことです。
さらに驚くべきことに、Socratic-Generator-32Bの合成データは、Qwen3-235B-A22B、DeepSeek-V3.1-671B、GPT-5、Gemini-2.5-Pro、Grok-4、Claude-4.1-Opusなど、これらのベンチマーク上の他の最先端(SOTA)商用LLMよりも優れた性能を達成することができる。
関連論文リスト
- Large-Scale Diverse Synthesis for Mid-Training [15.81154701009597]
BoostQAは100Bの大規模質問回答データセットである。
本稿では,BoostQAを合成するための新しい多様化パイプラインを提案する。
提案手法は,Llama-3 8Bを40Bトーケンデータセットで中級訓練し,MMLUとCMMLUで平均$mathbf12.74%の改善を実現する。
論文 参考訳(メタデータ) (2025-08-02T11:37:16Z) - Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models [1.96238419451815]
大規模言語モデル(LLM)は、プログラミングや数学的推論タスクにおいて強力な能力を示しているが、高品質な訓練データに制限されている。
我々は,高品質なトレーニングデータを確保するために,地道プルースプルーニングを用いて,自身の推論トレースを反復的に微調整するスケーラブルなフレームワークを導入する。
GSM8Kでは、Gemma2-2Bは57.6%(41.9%から)のPass@1、Gemma2-9Bは82%、LLaMA-3.1-70B、LLaMA-3.1-70Bは91%、GPT-4oを超える。
論文 参考訳(メタデータ) (2025-04-25T06:48:55Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - Evaluating Language Models as Synthetic Data Generators [99.16334775127875]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。
6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2024-12-04T19:20:32Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Impossible Distillation: from Low-Quality Model to High-Quality Dataset & Model for Summarization and Paraphrasing [59.58984194238254]
本稿では,パラフレーズと文要約のための新しい枠組みであるImpossible Distillationを提案する。
極端に大規模な教師モデルに依存した先行研究とは異なり、パラフラスティックな近在性と事前学習されたLMを仮説化し、検証する。
これらの部分空間から世代を同定して蒸留することにより、インポッシブル蒸留は、GPT2スケールのLMでも高品質なデータセットとモデルを生成する。
論文 参考訳(メタデータ) (2023-05-26T05:19:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。