論文の概要: EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning
- arxiv url: http://arxiv.org/abs/2510.17928v1
- Date: Mon, 20 Oct 2025 11:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.356731
- Title: EvoSyn: Generalizable Evolutionary Data Synthesis for Verifiable Learning
- Title(参考訳): EvoSyn: 検証可能な学習のための一般化可能な進化的データ合成
- Authors: He Du, Bowen Li, Aijun Yang, Siyang He, Qipeng Guo, Dacheng Tao,
- Abstract要約: 我々は、進化的、タスクに依存しない、戦略を導いた、実行可能検証可能なデータ合成フレームワークを紹介します。
問題、多様な候補解、検証成果物を共同で合成する。
これは、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する。
- 参考スコア(独自算出の注目度): 63.03672166010434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable verifiable data has become a key driver of capability gains in modern language models, enabling stable reinforcement learning with verifiable rewards and effective distillation that transfers competence across math, coding, and agentic tasks. Yet constructing generalizable synthetic verifiable data remains difficult due to hallucination-prone generation, and weak or trivial verification artifacts that fail to separate strong from weak solutions. Existing approaches often rely on task-specific heuristics or post-hoc filters that do not transfer across domains and lack a principled, universal evaluator of verifiability. In this work, we introduce an evolutionary, task-agnostic, strategy-guided, executably-checkable data synthesis framework that, from minimal seed supervision, jointly synthesizes problems, diverse candidate solutions, and verification artifacts, and iteratively discovers strategies via a consistency-based evaluator that enforces agreement between human-annotated and strategy-induced checks. This pipeline upgrades filtering into principled synthesis: it reliably assembles coherent, verifiable training instances and generalizes without domain-specific rules. Our experiments demonstrate the effectiveness of the proposed approach under both RLVR and model distillation training paradigms. The results show that training with our synthesized data yields significant improvements on both the LiveCodeBench and AgentBench-OS tasks, highlighting the robust generalization of our framework.
- Abstract(参考訳): 信頼性の高い検証可能なデータは、現代の言語モデルにおける能力向上の鍵となり、検証可能な報酬を伴う安定した強化学習と、数学、コーディング、エージェントタスク間での能力の伝達を行う効果的な蒸留を可能にしている。
しかし、幻覚の発生により一般化可能な合成検証データの構築は困難であり、弱解と強解を分離できない弱いあるいは自明な検証成果物は依然として困難である。
既存のアプローチは、しばしばタスク固有のヒューリスティックやポストホックフィルタに依存しており、ドメイン間を移動せず、検証可能性の原理的普遍的評価器を欠いている。
本研究では、最小限のシード管理から、問題、多様な候補ソリューション、検証アーティファクトを共同で合成し、人間による注釈付きチェックと戦略によるチェックの合意を強制する一貫性に基づく評価器を通じて戦略を反復的に発見する、進化的でタスクに依存しない、戦略に依存しない、実行可能なデータ合成フレームワークを導入する。
このパイプラインはフィルタリングを原則化された合成にアップグレードする。一貫性のある検証可能なトレーニングインスタンスを確実に組み立て、ドメイン固有のルールなしで一般化する。
本実験は,RLVRおよびモデル蒸留訓練パラダイムに基づく提案手法の有効性を実証するものである。
その結果,LiveCodeBenchタスクとAgentBench-OSタスクの両方において,合成データによるトレーニングが大幅に改善され,フレームワークの堅牢な一般化が強調された。
関連論文リスト
- ReSyn: Autonomously Scaling Synthetic Environments for Reasoning Models [18.359969463106644]
検証可能な報酬付き強化学習(RLVR)は、推論言語モデル(RLM)を訓練するための有望なアプローチとして登場した。
本研究では、インスタンスジェネレータと検証器を備えた多様な推論環境を生成するパイプラインであるReSynを導入することにより、RLVRをスケールする。
論文 参考訳(メタデータ) (2026-02-23T18:34:29Z) - daVinci-Agency: Unlocking Long-Horizon Agency Data-Efficiently [35.39097522391409]
大規模言語モデル(LLM)は短期的なタスクで優れており、それらを長期のエージェント合成に拡張することは依然として困難である。
本稿では,PRチェーンから構造化監視を体系的にマイニングするdaVinci-Agencyを提案する。
DaVinci-AgencyのPR基底構造は、本質的には、永続的なゴールサイクルの振る舞いを教えるのに不可欠な因果依存性と反復的な洗練を保っている。
論文 参考訳(メタデータ) (2026-02-02T13:23:39Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - SynClaimEval: A Framework for Evaluating the Utility of Synthetic Data in Long-Context Claim Verification [1.740313383876245]
長文クレーム検証における合成データの有用性を評価するためのフレームワークであるSynClaimEvalを紹介する。
本フレームワークでは,文脈長の変化による入力特性,ドメイン外ベンチマークへの一般化テスト,クレームの複雑性とエラータイプの変化を制御した合成ロジック,モデル説明が予測に合致する証拠を提供する度合いを計測した説明品質の3つの次元について検討する。
論文 参考訳(メタデータ) (2025-11-12T18:36:59Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - RationAnomaly: Log Anomaly Detection with Rationality via Chain-of-Thought and Reinforcement Learning [27.235259453535537]
RationAnomalyは、Chain-of-Thoughtファインチューニングと強化学習を相乗化することにより、ログの異常検出を強化する新しいフレームワークである。
コードとデータセットを含む、対応するリソースをリリースしました。
論文 参考訳(メタデータ) (2025-09-18T07:35:58Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Real-Fake: Effective Training Data Synthesis Through Distribution Matching [16.499008884926337]
教師あり学習のためのトレーニングデータ合成の基礎となる原理を解析する。
画像分類タスクにおける合成データの有効性を実証する。
具体的には、画像Net1Kの70.9%のトップ1分類精度を、元の実データサイズである1 Xに相当する合成データでトレーニングする場合に達成する。
論文 参考訳(メタデータ) (2023-10-16T13:45:26Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Effective Few-Shot Named Entity Linking by Meta-Learning [34.70028855572534]
本稿では,非自明な合成エンティティ-メント対を生成するための新しい弱監督戦略を提案する。
また,各合成実体対に異なる重みを割り当てるメタ学習機構を設計する。
実世界のデータセットの実験により、提案手法は最先端の少数ショットエンティティリンクモデルを大幅に改善できることが示された。
論文 参考訳(メタデータ) (2022-07-12T03:23:02Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。