論文の概要: DataMaster: Data-Centric Autonomous AI Research
- arxiv url: http://arxiv.org/abs/2605.10906v2
- Date: Wed, 13 May 2026 04:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.868541
- Title: DataMaster: Data-Centric Autonomous AI Research
- Title(参考訳): DataMaster: データ中心の自律AI研究
- Authors: Yaxin Du, Xiyuan Yang, Zhifan Zhou, Wanxu Liu, Zixing Lei, Zimeng Chen, Fenyi Liu, Haotian Wu, Yuzhu Cai, Zexi Liu, Xinyu Zhu, WenHao Wang, Linfeng Zhang, Chen Qian, Siheng Chen,
- Abstract要約: タスク条件付き自律データエンジニアリングについて検討し、エージェントがデータ側のみを最適化することで、固定学習アルゴリズムを改善する。
木構造検索,共有候補データ,累積メモリを統合したデータエージェントフレームワークであるDataMasterを提案する。
MLE-Bench LiteとPostTrainBenchの2種類のベンチマークでDataMasterを評価する。
- 参考スコア(独自算出の注目度): 51.95819363392062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As model families, training recipes, and compute budgets become increasingly standardized, further gains in machine learning systems depend increasingly on data. Yet data engineering remains largely manual and ad hoc: practitioners repeatedly search for external datasets, adapt them to existing pipelines, validate candidate data through downstream training, and carry forward lessons from prior attempts. We study task-conditioned autonomous data engineering, where an autonomous agent improves a fixed learning algorithm by optimizing only the data side, including external data discovery, data selection and composition, cleaning and transformation. The goal is to obtain a stronger downstream solution while leaving the learning algorithm unchanged. To address the open-ended search space, branch-dependent refinement, and delayed validation inherent in autonomous data engineering, we propose DataMaster, a data-agent framework that integrates tree-structured search, shared candidate data, and cumulative memory. DataMaster consists of three key components: a DataTree that organizes alternative data-engineering branches, a shared Data Pool that stores discovered external data sources for reuse, and a Global Memory that records node outcomes, artifacts, and reusable findings. Together, these components allow the agent to discover candidate data, construct executable training inputs, evaluate them through downstream feedback, and carry useful evidence across branches. We evaluate DataMaster on two types of benchmarks, MLE-Bench Lite and PostTrainBench. On MLE-Bench Lite, it improves medal rate by 32.27% over the initial score; on PostTrainBench, it surpasses the instruct model on GPQA (31.02% vs 30.35%).
- Abstract(参考訳): モデルファミリー、トレーニングレシピ、計算予算の標準化が進むにつれ、機械学習システムのさらなる進歩はデータに依存している。
実践者は、外部データセットを何度も検索し、既存のパイプラインに適応し、下流トレーニングを通じて候補データを検証し、事前の試行から学ぶ。
本研究では,外部データ発見,データ選択,構成,クリーニング,変換を含むデータ側のみを最適化することにより,自律エージェントが固定学習アルゴリズムを改善するタスク条件付き自律データエンジニアリングについて検討する。
目標は、学習アルゴリズムをそのままにして、より強力な下流ソリューションを得ることである。
本研究では,木構造検索,共有候補データ,累積メモリを統合したデータエージェントフレームワークであるDataMasterを提案する。
DataMasterは、代替データエンジニアリングブランチを編成するDataTree、発見された外部データソースを再利用するために格納する共有データプール、ノードの結果、アーティファクト、再利用可能な結果を記録するGlobal Memoryという3つの重要なコンポーネントで構成されている。
これらのコンポーネントによって、エージェントは候補データを発見し、実行可能なトレーニングインプットを構築し、下流からのフィードバックを通じてそれらを評価し、ブランチ間で有用なエビデンスを実行することができる。
MLE-Bench LiteとPostTrainBenchの2種類のベンチマークでDataMasterを評価する。
MLE-Bench Liteでは、最初のスコアよりも32.27%、PostTrainBenchではGPQA(31.02%対30.35%)のインストラクションモデルを上回っている。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - Hierarchical Dataset Selection for High-Quality Data Sharing [6.079330426909266]
本稿では,データセットとグループ(例えば,コレクション,機関)レベルでユーティリティをモデル化するデータセット選択手法を提案する。
DaSHは最先端のデータ選択ベースラインを26.2%精度で上回り、探索手順は大幅に少ない。
論文 参考訳(メタデータ) (2025-12-11T18:59:55Z) - Dataforge: A Data Agent Platform for Autonomous Data Engineering [22.691284342164334]
Data Agentは、表データに特化した完全に自律的なシステムである。
データクリーニング、階層的ルーティング、デュアルフィードバックループによる機能レベルの最適化を自動的に実行する。
自動、安全、非専門家フレンドリーという3つの基本原則を具現化し、人間の監督なしにエンドツーエンドの信頼性を保証する。
論文 参考訳(メタデータ) (2025-11-09T01:58:13Z) - A collaborative digital twin built on FAIR data and compute infrastructure [41.94295877935867]
本研究は,nanoHUBサービス上に構築された分散SDL実装をオンラインシミュレーションとFAIRデータ管理のために提案する。
研究者と学生は、独自の実験をセットアップし、協力者とデータを共有し、FAIRデータ、予測MLモデル、シーケンシャルな最適化の組み合わせを探索することができる。
論文 参考訳(メタデータ) (2025-06-24T18:13:52Z) - OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - METAM: Goal-Oriented Data Discovery [9.73435089036831]
METAMは目標指向のフレームワークで、下流タスクを候補データセットでクエリし、フィードバックループを形成して、発見と拡張プロセスを自動的に管理する。
我々はMETAMの理論的保証を示し、それらを幅広いタスクセットで実証的に示す。
論文 参考訳(メタデータ) (2023-04-18T15:42:25Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。