論文の概要: Machine Learning Pipelines: Provenance, Reproducibility and FAIR Data
Principles
- arxiv url: http://arxiv.org/abs/2006.12117v1
- Date: Mon, 22 Jun 2020 10:17:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 04:28:52.831357
- Title: Machine Learning Pipelines: Provenance, Reproducibility and FAIR Data
Principles
- Title(参考訳): 機械学習パイプライン: 保証、再現性、FAIRデータ原則
- Authors: Sheeba Samuel, Frank L\"offler, Birgitta K\"onig-Ries
- Abstract要約: マシンラーニングパイプラインのエンドツーエンドをサポートするための、私たちの目標と最初のステップについて説明します。
ソースコードとデータセットの可用性を超えて、どの要因がML実験に影響を与えるかを検討する。
ML実験にFAIRデータプラクティスを適用する方法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) is an increasingly important scientific tool supporting
decision making and knowledge generation in numerous fields. With this, it also
becomes more and more important that the results of ML experiments are
reproducible. Unfortunately, that often is not the case. Rather, ML, similar to
many other disciplines, faces a reproducibility crisis. In this paper, we
describe our goals and initial steps in supporting the end-to-end
reproducibility of ML pipelines. We investigate which factors beyond the
availability of source code and datasets influence reproducibility of ML
experiments. We propose ways to apply FAIR data practices to ML workflows. We
present our preliminary results on the role of our tool, ProvBook, in capturing
and comparing provenance of ML experiments and their reproducibility using
Jupyter Notebooks.
- Abstract(参考訳): 機械学習(ML)は多くの分野において意思決定と知識生成を支援する重要な科学的ツールである。
これにより、ML実験の結果が再現可能であることがますます重要になる。
残念ながら、そうではないことが多い。
むしろMLは他の多くの分野と同様、再現性危機に直面している。
本稿では,MLパイプラインのエンドツーエンド再現性をサポートするための目標と初期ステップについて述べる。
機械学習実験の再現性に影響を及ぼすソースコードとデータセットの可用性以上の要因について検討する。
機械学習ワークフローにFAIRデータプラクティスを適用する方法を提案する。
本稿では,ML実験の成果とJupyter Notebooksを用いた再現性の比較において,ツールProvBookの役割について予備的な結果を示す。
関連論文リスト
- Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - MLXP: A Framework for Conducting Replicable Experiments in Python [63.37350735954699]
MLXPはPythonをベースとした,オープンソースの,シンプルで,軽量な実験管理ツールである。
実験プロセスを最小限のオーバーヘッドで合理化し、高いレベルの実践的オーバーヘッドを確保します。
論文 参考訳(メタデータ) (2024-02-21T14:22:20Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - Julearn: an easy-to-use library for leakage-free evaluation and
inspection of ML models [0.23301643766310373]
我々は、Julearnの設計の背景にある理論的根拠と、その中核となる特徴を提示し、以前に公表された研究プロジェクトの3つの例を示す。
Julearnは、最も一般的なMLの落とし穴に対して、ガードを組み込んだ使いやすい環境を提供することで、機械学習の世界への参入を単純化することを目指している。
論文 参考訳(メタデータ) (2023-10-19T08:21:12Z) - Human-in-the-loop: The future of Machine Learning in Automated Electron
Microscopy [0.6760163180787716]
MLに基づくアクティブな実験を設計する際の考慮事項について論じる。
今後数年間の計画としては、人力による自動実験が考えられる。
論文 参考訳(メタデータ) (2023-10-08T05:26:32Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Closing the loop: Autonomous experiments enabled by
machine-learning-based online data analysis in synchrotron beamline
environments [80.49514665620008]
機械学習は、大規模または高速に生成されたデータセットを含む研究を強化するために使用できる。
本研究では,X線反射法(XRR)のための閉ループワークフローへのMLの導入について述べる。
本研究では,ビームライン制御ソフトウェア環境に付加的なソフトウェア依存関係を導入することなく,実験中の基本データ解析をリアルタイムで行うソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-20T21:21:19Z) - Reasonable Scale Machine Learning with Open-Source Metaflow [2.637746074346334]
既存のツールを再購入しても、現在の生産性の問題は解決しない、と私たちは主張します。
私たちは、データ実践者の生産性を高めるために明示的に設計された、MLプロジェクトのためのオープンソースのフレームワークであるMetaflowを紹介します。
論文 参考訳(メタデータ) (2023-03-21T11:28:09Z) - The challenge of reproducible ML: an empirical study on the impact of
bugs [6.862925771672299]
本稿では,機械学習システムにおける非決定性の原因となる基本的要因について述べる。
次にReproduceMLというフレームワークを導入し,実環境におけるML実験の決定論的評価を行う。
本研究では、人気のあるMLフレームワークであるPyTorchにおけるバグ発生が、トレーニングされたモデルの性能に与える影響を定量化する。
論文 参考訳(メタデータ) (2021-09-09T01:36:39Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z) - Insights into Performance Fitness and Error Metrics for Machine Learning [1.827510863075184]
機械学習(ML)は、高いレベルの認知を達成し、人間のような分析を行うための訓練機械の分野である。
本稿では、回帰アルゴリズムや分類アルゴリズムにおいて、最もよく使われている性能適合度と誤差の測定値について検討する。
論文 参考訳(メタデータ) (2020-05-17T22:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。