論文の概要: From Data to Decision: Data-Centric Infrastructure for Reproducible ML in Collaborative eScience
- arxiv url: http://arxiv.org/abs/2506.16051v1
- Date: Thu, 19 Jun 2025 06:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.955264
- Title: From Data to Decision: Data-Centric Infrastructure for Reproducible ML in Collaborative eScience
- Title(参考訳): データから意思決定へ:協調的eサイエンスにおける再現可能なMLのためのデータ中心基盤
- Authors: Zhiwei Li, Carl Kesselman, Tran Huy Nguyen, Benjamin Yixing Xu, Kyle Bolo, Kimberley Yu,
- Abstract要約: 機械学習(ML)における再現性は依然として中心的な課題である
現在のMLは、しばしば断片化され、非公式なデータ共有、アドホックスクリプト、ゆるく接続されたツールに依存している。
本稿では,ライフサイクルを意識したアーティファクトのためのデータ中心フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.136688282190268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reproducibility remains a central challenge in machine learning (ML), especially in collaborative eScience projects where teams iterate over data, features, and models. Current ML workflows are often dynamic yet fragmented, relying on informal data sharing, ad hoc scripts, and loosely connected tools. This fragmentation impedes transparency, reproducibility, and the adaptability of experiments over time. This paper introduces a data-centric framework for lifecycle-aware reproducibility, centered around six structured artifacts: Dataset, Feature, Workflow, Execution, Asset, and Controlled Vocabulary. These artifacts formalize the relationships between data, code, and decisions, enabling ML experiments to be versioned, interpretable, and traceable over time. The approach is demonstrated through a clinical ML use case of glaucoma detection, illustrating how the system supports iterative exploration, improves reproducibility, and preserves the provenance of collaborative decisions across the ML lifecycle.
- Abstract(参考訳): 再現性は、マシンラーニング(ML)、特にチームがデータや機能、モデルを反復するコラボレーションeScienceプロジェクトにおいて、依然として中心的な課題である。
現在のMLワークフローは、しばしば動的だが断片的であり、非公式なデータ共有、アドホックスクリプト、ゆるく接続されたツールに依存している。
この断片化は、透明性、再現性、時間の経過とともに実験の適応性を妨げます。
本稿では、データセット、フィーチャー、ワークフロー、実行、アセット、制御語彙の6つの構造化アーティファクトを中心に、ライフサイクルを意識した再現性のためのデータ中心のフレームワークを紹介します。
これらのアーティファクトは、データ、コード、決定の関係を形式化し、ML実験をバージョニングし、解釈し、トレース可能にする。
このアプローチは、緑内障検出の臨床的MLユースケースを通じて実証され、システムが反復探索をどのようにサポートするかを説明し、再現性を改善し、MLライフサイクル全体での協調的な決定の証明を保持する。
関連論文リスト
- MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文 参考訳(メタデータ) (2024-06-27T04:42:29Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Closing the loop: Autonomous experiments enabled by
machine-learning-based online data analysis in synchrotron beamline
environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。
本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。
本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-20T21:21:19Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Enabling Reproducibility and Meta-learning Through a Lifelong Database
of Experiments (LDE) [0.43012765978447565]
本稿では,実験成果物から関連メタデータを自動的に抽出し,保存するライフロング・データベース・オブ・エクスペリメント(LDE)を提案する。
AI開発ライフサイクルの複数のステージから、データセットやパイプライン、各設定方法、トレーニングはランタイム環境に関する情報とともに実行される。
このメタデータに対して,1)パフォーマンス指標の変動性を調べること,2)データ上に複数のメタ学習アルゴリズムを実装すること,の2つの実験を行った。
論文 参考訳(メタデータ) (2022-02-22T15:35:16Z) - Machine Learning Pipelines: Provenance, Reproducibility and FAIR Data
Principles [0.0]
マシンラーニングパイプラインのエンドツーエンドをサポートするための、私たちの目標と最初のステップについて説明します。
ソースコードとデータセットの可用性を超えて、どの要因がML実験に影響を与えるかを検討する。
ML実験にFAIRデータプラクティスを適用する方法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:17:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。