論文の概要: MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline
- arxiv url: http://arxiv.org/abs/2510.07307v1
- Date: Wed, 08 Oct 2025 17:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.685831
- Title: MLE-Smith: Scaling MLE Tasks with Automated Multi-Agent Pipeline
- Title(参考訳): MLE-Smith: 自動マルチエージェントパイプラインによるMLEタスクのスケーリング
- Authors: Rushi Qiang, Yuchen Zhuang, Anikait Singh, Percy Liang, Chao Zhang, Sherry Yang, Bo Dai,
- Abstract要約: 我々は、MLE-Smithという完全自動化されたマルチエージェントパイプラインを導入し、生データセットを競合スタイルのMLE課題に変換する。
MLE-Smithは構造化されたタスク設計と標準化を駆動し、厳密な構造規則と高レベルのセマンティックサウンドを強制するハイブリッド検証機構と結合する。
我々は、複数のカテゴリ、目的、モダリティにまたがる606のタスクを生成し、MLE-Smithが広範囲の現実世界のデータセットで効果的に動作することを示す。
- 参考スコア(独自算出の注目度): 60.80254167794536
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Language Models (LMs) have made significant progress in automating machine learning engineering (MLE), the acquisition of high-quality MLE training data is significantly constrained. Current MLE benchmarks suffer from low scalability and limited applicability because they rely on static, manually curated tasks, demanding extensive time and manual effort to produce. We introduce MLE-Smith, a fully automated multi-agent pipeline, to transform raw datasets into competition-style MLE challenges through an efficient generate-verify-execute paradigm for scaling MLE tasks with verifiable quality, real-world usability, and rich diversity. The proposed multi-agent pipeline in MLE-Smith drives structured task design and standardized refactoring, coupled with a hybrid verification mechanism that enforces strict structural rules and high-level semantic soundness. It further validates empirical solvability and real-world fidelity through interactive execution. We apply MLE-Smith to 224 of real-world datasets and generate 606 tasks spanning multiple categories, objectives, and modalities, demonstrating that MLE-Smith can work effectively across a wide range of real-world datasets. Evaluation on the generated tasks shows that the performance of eight mainstream and cutting-edge LLMs on MLE-Smith tasks is strongly correlated with their performance on carefully human-designed tasks, highlighting the effectiveness of the MLE-Smith to scaling up MLE tasks, while maintaining task quality.
- Abstract(参考訳): 言語モデル(LM)は機械学習工学(MLE)の自動化において大きな進歩を遂げているが、高品質なMLEトレーニングデータの取得は著しく制限されている。
現在のMLEベンチマークは、静的で手動で計算されたタスクに依存するため、スケーラビリティが低く、適用性が制限されている。
我々は、完全自動化されたマルチエージェントパイプラインであるMLE-Smithを導入し、MLEタスクを検証可能な品質、実世界のユーザビリティ、豊富な多様性でスケーリングするための効率的な生成検証実行パラダイムを通じて、生データセットを競合スタイルのMLE課題に変換する。
MLE-Smithにおけるマルチエージェントパイプラインは、構造化タスク設計と標準化されたリファクタリングを駆動し、厳密な構造規則と高レベルのセマンティックサウンドを強制するハイブリッド検証機構と結合する。
さらに、インタラクティブな実行を通じて経験的可解性と実世界の忠実性を検証する。
実世界のデータセットの224にMLE-Smithを適用し、複数のカテゴリ、目的、モダリティにまたがる606のタスクを生成し、MLE-Smithが広範囲の実世界のデータセットで効果的に動作することを示す。
MLE-Smithタスクにおける8つのメインストリームおよび最先端のLCMのパフォーマンスは、MLE-Smithタスクを慎重に設計したタスクにおける性能と強く相関しており、タスク品質を維持しながら、MLE-Smithタスクのスケールアップに対するMLE-Smithの有効性を強調している。
関連論文リスト
- MAML-en-LLM: Model Agnostic Meta-Training of LLMs for Improved In-Context Learning [43.512739869120125]
大規模言語モデル(LLM)のメタトレーニング手法であるMAML-en-LLMを提案する。
MAML-en-LLMは、解離したタスクでうまく機能するだけでなく、目に見えないタスクに適応する真の一般化可能なパラメータを学習することができる。
我々は、MAML-en-LLMが、目に見えないドメインと見えないドメインのトレーニングデータが少ない設定において、ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-19T04:49:42Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。