論文の概要: Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models
- arxiv url: http://arxiv.org/abs/2407.01608v1
- Date: Thu, 27 Jun 2024 04:42:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 20:02:00.765767
- Title: Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models
- Title(参考訳): Deriva-ML: 再現可能な機械学習モデルに対する継続的FAIRnessアプローチ
- Authors: Zhiwei Li, Carl Kesselman, Mike D'Arch, Michael Pazzani, Benjamin Yizing Xu,
- Abstract要約: データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
- 参考スコア(独自算出の注目度): 1.204452887718077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasingly, artificial intelligence (AI) and machine learning (ML) are used in eScience applications [9]. While these approaches have great potential, the literature has shown that ML-based approaches frequently suffer from results that are either incorrect or unreproducible due to mismanagement or misuse of data used for training and validating the models [12, 15]. Recognition of the necessity of high-quality data for correct ML results has led to data-centric ML approaches that shift the central focus from model development to creation of high-quality data sets to train and validate the models [14, 20]. However, there are limited tools and methods available for data-centric approaches to explore and evaluate ML solutions for eScience problems which often require collaborative multidisciplinary teams working with models and data that will rapidly evolve as an investigation unfolds [1]. In this paper, we show how data management tools based on the principle that all of the data for ML should be findable, accessible, interoperable and reusable (i.e. FAIR [26]) can significantly improve the quality of data that is used for ML applications. When combined with best practices that apply these tools to the entire life cycle of an ML-based eScience investigation, we can significantly improve the ability of an eScience team to create correct and reproducible ML solutions. We propose an architecture and implementation of such tools and demonstrate through two use cases how they can be used to improve ML-based eScience investigations.
- Abstract(参考訳): 人工知能(AI)と機械学習(ML)がeScienceアプリケーション [9]でますます使われています。
これらのアプローチは大きな可能性を秘めているが、MLベースのアプローチは、トレーニングやモデルの検証に使用されるデータの不正な管理や誤用によって、しばしば不正確または再現不可能な結果に悩まされることが文献で示されている [12, 15]。
ML結果の正しさに対する高品質なデータの必要性の認識は、モデル開発から高品質なデータセットの作成に中心的な焦点を移し、モデルをトレーニングし検証するデータ中心のMLアプローチにつながった[14,20]。
しかし、eScience問題に対するMLソリューションを探求し評価するためのデータ中心のアプローチには、限られたツールや方法がある。
本稿では、ML用データはすべて発見可能で、アクセス可能で、相互運用可能で、再利用可能な(FAIR [26])という原則に基づくデータ管理ツールが、MLアプリケーションで使用されるデータ品質を大幅に改善できることを示す。
これらのツールをMLベースのeScience調査のライフサイクル全体に適用するベストプラクティスと組み合わせることで、eScienceチームが正しい再現可能なMLソリューションを作成する能力を大幅に改善できます。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
関連論文リスト
- Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Stronger Baseline Models -- A Key Requirement for Aligning Machine Learning Research with Clinical Utility [0.0]
機械学習モデルを高精細な臨床環境にデプロイしようとするとき、よく知られた障壁が存在する。
評価において,より強力なベースラインモデルを含むと,下流効果が重要となることを実証的に示す。
本稿では,MLモデルを臨床現場でより効果的に研究・展開するためのベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-09-18T16:38:37Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Utilizing Domain Knowledge: Robust Machine Learning for Building Energy
Prediction with Small, Inconsistent Datasets [1.1081836812143175]
機械学習(ML)アプリケーションに対する膨大なデータ需要は、現在ボトルネックとなっている。
本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。
知識符号化データ駆動手法としてCBMLをエネルギー効率の高い建築工学の文脈で検討する。
論文 参考訳(メタデータ) (2023-01-23T08:56:11Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Towards Model-informed Precision Dosing with Expert-in-the-loop Machine
Learning [0.0]
モデル学習ループに人的専門家を取り入れることで、モデル学習を加速し、解釈可能性を向上させるMLフレームワークを検討する。
本稿では,データアノテーションのコストが高い学習問題に対処することを目的とした,新たなヒューマン・イン・ザ・ループMLフレームワークを提案する。
精度測定への応用により,本手法はデータから解釈可能なルールを学習し,専門家の作業負荷を低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-28T03:45:09Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - Insights into Performance Fitness and Error Metrics for Machine Learning [1.827510863075184]
機械学習(ML)は、高いレベルの認知を達成し、人間のような分析を行うための訓練機械の分野である。
本稿では、回帰アルゴリズムや分類アルゴリズムにおいて、最もよく使われている性能適合度と誤差の測定値について検討する。
論文 参考訳(メタデータ) (2020-05-17T22:59:04Z) - Injective Domain Knowledge in Neural Networks for Transprecision
Computing [17.300144121921882]
本稿では,非自明な学習課題を扱う際に,事前知識を統合することで得られる改善について検討する。
その結果,問題固有情報を利用したMLモデルは純粋にデータ駆動のモデルよりも優れており,平均精度は約38%向上していることがわかった。
論文 参考訳(メタデータ) (2020-02-24T12:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。