論文の概要: EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning
- arxiv url: http://arxiv.org/abs/2510.17928v1
- Date: Mon, 20 Oct 2025 11:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.356731
- Title: EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning
- Title(参考訳): EvoSyn: 検証可能な学習のための一般化可能な進化的データ合成
- Authors: He Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao,
- Abstract要約: 我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
- 参考スコア(独自算出の注目度): 63.03672166010434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable verifiable data has become a key driver of capability gains in modern language models, enabling stable reinforcement learning with verifiable rewards and effective distillation that transfers competence across math, coding, and agentic tasks. Yet constructing generalizable synthetic verifiable data remains difficult due to hallucination-prone generation, and weak or trivial verification artifacts that fail to separate strong from weak solutions. Existing approaches often rely on task-specific heuristics or post-hoc filters that do not transfer across domains and lack a principled, universal evaluator of verifiability. In this work, we introduce an evolutionary, task-agnostic, strategy-guided, executably-checkable data synthesis framework that, from minimal seed supervision, jointly synthesizes problems, diverse candidate solutions, and verification artifacts, and iteratively discovers strategies via a consistency-based evaluator that enforces agreement between human-annotated and strategy-induced checks. This pipeline upgrades filtering into principled synthesis: it reliably assembles coherent, verifiable training instances and generalizes without domain-specific rules. Our experiments demonstrate the effectiveness of the proposed approach under both RLVR and model distillation training paradigms. The results show that training with our synthesized data yields significant improvements on both the LiveCodeBench and AgentBench-OS tasks, highlighting the robust generalization of our framework.
- Abstract(参考訳): 信頼性の高い検証可能なデータは、現代の言語モデルにおける能力向上の鍵となり、検証可能な報酬を伴う安定した強化学習と、数学、コーディング、エージェントタスク間での能力の伝達を行う効果的な蒸留を可能にしている。
しかし、幻覚の発生により一般化可能な合成検証データの構築は困難であり、弱解と強解を分離できない弱いあるいは自明な検証成果物は依然として困難である。
既存のアプローチは、しばしばタスク固有のヒューリスティックやポストホックフィルタに依存しており、ドメイン間を移動せず、検証可能性の原理的普遍的評価器を欠いている。
本研究では、最小限のシード管理から、問題、多様な候補ソリューション、検証アーティファクトを共同で合成し、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する、進化的でタスクに依存しない、戦略に依存しない、実行可能なデータ合成フレームワークを導入する。
このパイプラインはフィルタリングを原則化された合成にアップグレードする。一貫性のある検証可能なトレーニングインスタンスを確実に組み立て、ドメイン固有のルールなしで一般化する。
本実験は,RLVRおよびモデル蒸留訓練パラダイムに基づく提案手法の有効性を実証するものである。
その結果,LiveCodeBenchタスクとAgentBench-OSタスクの両方において,合成データによるトレーニングが大幅に改善され,フレームワークの堅牢な一般化が強調された。
関連論文リスト
- RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Real-Fake: Effective Training Data Synthesis Through Distribution Matching [16.499008884926337]
教師あり学習のためのトレーニングデータ合成の基礎となる原理を解析する。
画像分類タスクにおける合成データの有効性を実証する。
具体的には、画像Net1Kの70.9%のトップ1分類精度を、元の実データサイズである1 Xに相当する合成データでトレーニングする場合に達成する。
論文 参考訳(メタデータ) (2023-10-16T13:45:26Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Effective Few-Shot Named Entity Linking by Meta-Learning [34.70028855572534]
本稿では,非自明な合成エンティティ-メント対を生成するための新しい弱監督戦略を提案する。
また,各合成実体対に異なる重みを割り当てるメタ学習機構を設計する。
実世界のデータセットの実験により、提案手法は最先端の少数ショットエンティティリンクモデルを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2022-07-12T03:23:02Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。