論文の概要: DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.11089v1
- Date: Wed, 11 Feb 2026 17:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.276941
- Title: DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning
- Title(参考訳): DataChef: 強化学習によるLLM適応のための最適データレシピ作成
- Authors: Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen,
- Abstract要約: 提案するDataChef-32Bは,候補レシピの下流性能を予測するプロキシ報酬を用いて,オンライン強化学習を行う。
DataChef-32BのレシピはQwen3-1.7Bベースを数学領域に適応させ、AIME'25で66.7、Qwen3-1.7Bを超えた。
- 参考スコア(独自算出の注目度): 27.75273528849027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current landscape of Large Language Models (LLMs), the curation of large-scale, high-quality training data is a primary driver of model performance. A key lever is the \emph{data recipe}, which comprises a data processing pipeline to transform raw sources into training corpora. Despite the growing use of LLMs to automate individual data processing steps, such as data synthesis and filtering, the overall design of data recipes remains largely manual and labor-intensive, requiring substantial human expertise and iteration. To bridge this gap, we formulate \emph{end-to-end data recipe generation} for LLM adaptation. Given a target benchmark and a pool of available data sources, a model is required to output a complete data recipe that adapts a base LLM to the target task. We present DataChef-32B, which performs online reinforcement learning using a proxy reward that predicts downstream performance for candidate recipes. Across six held-out tasks, DataChef-32B produces practical recipes that reach comparable downstream performance to those curated by human experts. Notably, the recipe from DataChef-32B adapts Qwen3-1.7B-Base to the math domain, achieving 66.7 on AIME'25 and surpassing Qwen3-1.7B. This work sheds new light on automating LLM training and developing self-evolving AI systems.
- Abstract(参考訳): LLM(Large Language Models)の現在の状況では、大規模で高品質なトレーニングデータのキュレーションが、モデルパフォーマンスの主要な要因となっている。
キーレバーは \emph{data recipe} で、ソースをトレーニングコーパスに変換するデータ処理パイプラインを含む。
データ合成やフィルタリングといった個別のデータ処理手順の自動化にLLMの利用が増えているにもかかわらず、データレシピの全体的な設計は手作業と労働集約がほとんどであり、人間の専門知識とイテレーションがかなり必要である。
このギャップを埋めるために、LLM適応のために \emph{end-to-end data recipe} を定式化する。
ターゲットベンチマークと利用可能なデータソースのプールが与えられた場合、ベースLSMをターゲットタスクに適応させる完全なデータレシピを出力する必要がある。
提案するDataChef-32Bは,候補レシピの下流性能を予測するプロキシ報酬を用いて,オンライン強化学習を行う。
6つのタスクで、DataChef-32Bは、人間の専門家がキュレートしたものと同等のダウンストリームのパフォーマンスに達する実用的なレシピを生成する。
特に、DataChef-32BのレシピはQwen3-1.7Bベースを数学領域に適応させ、AIME'25で66.7、Qwen3-1.7Bを上回っている。
この研究は、LLMトレーニングの自動化と自己進化型AIシステムの開発に新たな光を当てている。
関連論文リスト
- Augmented Fine-Tuned LLMs for Enhanced Recruitment Automation [0.4349640169711269]
大規模言語モデル(LLM)は精度と効率を向上させるために微調整された。
システムは標準化されたフォーマットを使用する合成データセットを作成する。
Phy-4は90.62%という最高スコアを達成し、採用作業における例外的な精度とリコールを示している。
論文 参考訳(メタデータ) (2025-09-07T20:18:31Z) - Transferable text data distillation by trajectory matching [27.826518926355295]
データ蒸留法は、少数のデータサンプルを合成し、全データセットのトレーニング効果を達成することを目的としている。
本研究では,軌道マッチングに基づいて擬似的プロンプトデータを学習する手法を提案する。
ARC-Easy と MMLU の命令チューニングデータセットを含む2つのベンチマークによる評価により,SOTA データ選択手法 LESS よりも蒸留法の方が優れていることを確認した。
論文 参考訳(メタデータ) (2025-04-14T02:39:26Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Data-Juicer: A One-Stop Data Processing System for Large Language Models [73.27731037450995]
データレシピは、大規模言語モデル(LLM)をトレーニングするための異なるソースからのデータの混合である。
我々はData-Juicerという新しいシステムを構築し、多様なデータレシピを効率的に生成できる。
Data-Juicerから派生したデータレシピは、最先端のLLMで顕著に改善されている。
論文 参考訳(メタデータ) (2023-09-05T08:22:07Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Structured Vision-Language Pretraining for Computational Cooking [54.0571416522547]
Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
論文 参考訳(メタデータ) (2022-12-08T13:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。