論文の概要: AutoSynth: Automated Workflow Optimization for High-Quality Synthetic Dataset Generation via Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2511.09488v1
- Date: Thu, 13 Nov 2025 01:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.591813
- Title: AutoSynth: Automated Workflow Optimization for High-Quality Synthetic Dataset Generation via Monte Carlo Tree Search
- Title(参考訳): AutoSynth:モンテカルロ木探索による高品質な合成データセット生成のための自動ワークフロー最適化
- Authors: Shuzhen Bi, Chang Song, Siyu Song, Jinze Lv, Jian Chen, Xinyun Wang, Aimin Zhou, Hao Hao,
- Abstract要約: 特殊タスクのための大規模言語モデル(LLM)の監視された微調整(SFT)には、高品質なデータセットが必要である。
既存の自動ワークフローメソッドはコールドスタートの問題に直面している。
我々は、参照データセットなしでワークフローの発見と最適化を自動化するフレームワークであるAuto Synthを紹介した。
- 参考スコア(独自算出の注目度): 19.631058407921728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Supervised fine-tuning (SFT) of large language models (LLMs) for specialized tasks requires high-quality datasets, but manual curation is prohibitively expensive. Synthetic data generation offers scalability, but its effectiveness relies on complex, multi-stage workflows, integrating prompt engineering and model orchestration. Existing automated workflow methods face a cold start problem: they require labeled datasets for reward modeling, which is especially problematic for subjective, open-ended tasks with no objective ground truth. We introduce AutoSynth, a framework that automates workflow discovery and optimization without reference datasets by reframing the problem as a Monte Carlo Tree Search guided by a novel dataset-free hybrid reward. This reward enables meta-learning through two LLM-as-judge components: one evaluates sample quality using dynamically generated task-specific metrics, and another assesses workflow code and prompt quality. Experiments on subjective educational tasks show that while expert-designed workflows achieve higher human preference rates (96-99% win rates vs. AutoSynth's 40-51%), models trained on AutoSynth-generated data dramatically outperform baselines (40-51% vs. 2-5%) and match or surpass expert workflows on certain metrics, suggesting discovery of quality dimensions beyond human intuition. These results are achieved while reducing human effort from 5-7 hours to just 30 minutes (>90% reduction). AutoSynth tackles the cold start issue in data-centric AI, offering a scalable, cost-effective method for subjective LLM tasks. Code: https://github.com/bisz9918-maker/AutoSynth.
- Abstract(参考訳): 特殊タスクのための大規模言語モデル(LLM)の監督された微調整(SFT)には高品質なデータセットが必要であるが、手作業によるキュレーションは違法に高価である。
合成データ生成はスケーラビリティを提供するが、その有効性は複雑なマルチステージワークフローに依存し、迅速なエンジニアリングとモデルのオーケストレーションを統合する。
既存の自動ワークフローメソッドはコールドスタートの問題に直面している。報酬モデリングにはラベル付きデータセットが必要であるが、特に客観的な根拠のない主観的でオープンなタスクには問題がある。
我々は,参照データセットを使わずにワークフローの発見と最適化を自動化するフレームワークであるAutoSynthを紹介した。
この報酬は、2つのLCM-as-judgeコンポーネントによるメタラーニングを可能にします。ひとつは動的に生成されたタスク固有のメトリクスを使用してサンプル品質を評価し、もうひとつはワークフローコードを評価し、品質を早めます。
主観的な教育タスクの実験では、専門家が設計したワークフローがより高い人間の嗜好率(AutoSynthの40-51%に対して96-99%の勝利率)を達成する一方で、AutoSynthの生成したデータに基づいてトレーニングされたモデルは、ベースライン(40-51%対2-5%)を劇的に上回り、特定のメトリクスで専門家のワークフローと一致または上回り、人間の直感を超えた品質次元の発見が示唆されている。
これらの結果は、人間の労力を5~7時間から30分(>90%)に減らしながら達成される。
AutoSynthは、データ中心のAIにおけるコールドスタート問題に取り組み、主観的なLLMタスクに対してスケーラブルで費用対効果の高い方法を提供する。
コード:https://github.com/bisz9918-maker/AutoSynth。
関連論文リスト
- CoT-Self-Instruct: Building high-quality synthetic prompts for reasoning and non-reasoning tasks [59.69339605157168]
CoT-Self-Instructは、LCMに第一の理由と設計をChain-of-Thought経由で指示する合成データ生成手法である。
検証可能な推論において、我々の合成データは既存のトレーニングデータセットを著しく上回る。
検証不能な命令追従タスクでは,本手法は人間と標準の自己指導訓練データの両方の性能を超越する。
論文 参考訳(メタデータ) (2025-07-31T17:38:50Z) - MDCrow: Automating Molecular Dynamics Workflows with Large Language Models [0.6130124744675498]
分子動力学シミュレーションを自動化可能なエージェントLLMアシスタントであるMDCrowを紹介する。
必要なサブタスクと難易度が異なる25タスクにまたがるMDCrowの性能を評価し,難易度と易易度の両方に対するエージェントの頑健さを評価する。
論文 参考訳(メタデータ) (2025-02-13T18:19:20Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Efficacy of Synthetic Data as a Benchmark [3.2968976262860408]
大規模言語モデル(LLM)による合成データ生成の有効性について検討する。
実験の結果, 単純なタスクに対して, 合成データは様々な手法の性能を効果的に捉えることができるが, 名前付きエンティティ認識のような複雑なタスクでは不十分であることがわかった。
我々は、ベンチマークデータの生成とタスクの実行の両方に同じLLMを使用した場合のバイアスを評価するバイアス係数と呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-09-18T13:20:23Z) - AutoAct: Automatic Agent Learning from Scratch for QA via Self-Planning [54.47116888545878]
AutoActはQAのための自動エージェント学習フレームワークである。
大規模アノテートデータやクローズドソースモデルからの合成計画軌道は依存していない。
論文 参考訳(メタデータ) (2024-01-10T16:57:24Z) - Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and
the Case of Information Extraction [28.51694365908817]
本研究は,大規模言語モデルでは直接解けないタスクに対しても,有用なデータを合成的に生成できることを示唆する。
我々は、1.8Mのデータポイントのデータセットを合成的に生成し、人間の評価において既存のデータセットと比較して優れた品質を確立する。
論文 参考訳(メタデータ) (2023-03-07T18:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。