論文の概要: Workflow Provenance in the Lifecycle of Scientific Machine Learning
- arxiv url: http://arxiv.org/abs/2010.00330v3
- Date: Wed, 25 Aug 2021 14:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:59:49.396173
- Title: Workflow Provenance in the Lifecycle of Scientific Machine Learning
- Title(参考訳): 科学的機械学習のライフサイクルにおけるワークフロープロヴァンス
- Authors: Renan Souza, Leonardo G. Azevedo, V\'itor Louren\c{c}o, Elton Soares,
Raphael Thiago, Rafael Brand\~ao, Daniel Civitarese, Emilio Vital Brazil,
Marcio Moreno, Patrick Valduriez, Marta Mattoso, Renato Cerqueira, Marco A.
S. Netto
- Abstract要約: 我々は、科学MLのライフサイクルをサポートするために、ワークフロー技術を活用して全体像を構築する。
i)データ分析のライフサイクルと分類の特徴づけ、(ii)W3C PROVに準拠したデータ表現と参照システムアーキテクチャを用いて、この視点を構築するための設計原則、(iii)393ノードと946GPUを持つHPCクラスタを用いて、石油・ガスのケースでの評価から学んだ教訓に貢献する。
- 参考スコア(独自算出の注目度): 1.6118907823528272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) has already fundamentally changed several businesses.
More recently, it has also been profoundly impacting the computational science
and engineering domains, like geoscience, climate science, and health science.
In these domains, users need to perform comprehensive data analyses combining
scientific data and ML models to provide for critical requirements, such as
reproducibility, model explainability, and experiment data understanding.
However, scientific ML is multidisciplinary, heterogeneous, and affected by the
physical constraints of the domain, making such analyses even more challenging.
In this work, we leverage workflow provenance techniques to build a holistic
view to support the lifecycle of scientific ML. We contribute with (i)
characterization of the lifecycle and taxonomy for data analyses; (ii) design
principles to build this view, with a W3C PROV compliant data representation
and a reference system architecture; and (iii) lessons learned after an
evaluation in an Oil & Gas case using an HPC cluster with 393 nodes and 946
GPUs. The experiments show that the principles enable queries that integrate
domain semantics with ML models while keeping low overhead (<1%), high
scalability, and an order of magnitude of query acceleration under certain
workloads against without our representation.
- Abstract(参考訳): 機械学習(ML)はすでにいくつかのビジネスを根本的に変えている。
最近では、地球科学、気候科学、健康科学といった計算科学や工学の分野にも大きな影響を与えている。
これらのドメインでは、再現性、モデル説明可能性、実験データ理解などの重要な要件を満たすために、科学的データとMLモデルを組み合わせた包括的なデータ分析を実行する必要がある。
しかし、科学MLは多分野的で異種であり、ドメインの物理的制約の影響を受けており、そのような分析をさらに困難にしている。
本研究では,科学MLのライフサイクルを支援するために,ワークフロー証明技術を活用して全体像を構築する。
私たちは貢献します
(i)データ分析のライフサイクル及び分類のキャラクタリゼーション
(ii)w3cが準拠したデータ表現と参照システムアーキテクチャを保証して、このビューを構築するための設計原則
(iii)393ノードと946gpuを備えたhpcクラスタを用いたオイル・アンド・ガスケースでの評価後に学んだ教訓。
実験の結果,低オーバーヘッド(1%),高スケーラビリティ,ある種のワークロード下でのクエリアクセラレーションの桁違いの順序を維持しながら,MLモデルとドメインセマンティクスを統合可能なクエリが可能であることがわかった。
関連論文リスト
- MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z) - Geometry Matters: Benchmarking Scientific ML Approaches for Flow Prediction around Complex Geometries [23.111935712144277]
複雑な地形周辺の流体力学の迅速かつ正確なシミュレーションは、様々な工学的・科学的応用において重要である。
科学機械学習(SciML)は将来性を示しているが、ほとんどの研究は単純な測地に制約されている。
本研究では,複雑な地形上の流動予測のための多様なSciMLモデルをベンチマークすることで,このギャップを解消する。
論文 参考訳(メタデータ) (2024-12-31T00:23:15Z) - Data-Efficient Inference of Neural Fluid Fields via SciML Foundation Model [49.06911227670408]
本研究では,SciML基礎モデルにより,現実の3次元流体力学を推定する際のデータ効率を大幅に向上できることを示す。
基礎モデルから抽出した拡張ビューと流体特徴を利用した新しい協調学習手法をニューラルネットワークに装備する。
論文 参考訳(メタデータ) (2024-12-18T14:39:43Z) - Using Machine Learning to Discover Parsimonious and Physically-Interpretable Representations of Catchment-Scale Rainfall-Runoff Dynamics [1.1510009152620668]
機械学習の未調査の側面は、最小限の最適表現を開発する方法である。
我々の見解では、MLに基づくモデリングは、設計によって根本的に解釈可能な計算単位をベースとすべきである。
本研究では,比較的類似した分散状態ネットワークを用いて,物理的解釈可能性と予測性能を両立させることができることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:30:01Z) - Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - Improving Molecular Modeling with Geometric GNNs: an Empirical Study [56.52346265722167]
本稿では,異なる標準化手法,(2)グラフ作成戦略,(3)補助的なタスクが性能,拡張性,対称性の強制に与える影響に焦点をあてる。
本研究の目的は,分子モデリングタスクに最適なモデリングコンポーネントの選択を研究者に案内することである。
論文 参考訳(メタデータ) (2024-07-11T09:04:12Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Opportunities for machine learning in scientific discovery [16.526872562935463]
我々は、科学コミュニティが科学的な発見を達成するために機械学習技術をどのように活用できるかをレビューする。
課題は残るが、MLの原則的利用は基本的な科学的発見のための新たな道を開く。
論文 参考訳(メタデータ) (2024-05-07T09:58:02Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z) - Complete CVDL Methodology for Investigating Hydrodynamic Instabilities [0.49873153106566565]
流体力学において、最も重要な研究分野の1つは流体力学の不安定性と異なる流れ状態におけるその進化である。
現在、そのような現象、すなわち分析モデル、実験、シミュレーションを理解するために3つの主要な手法が使用されている。
我々は、この研究の大部分が、Deep Learning(CVDL、Deep Computer-Vision)の分野における最近の画期的な進歩を用いて、分析されるべきであると主張している。
具体的には、最も代表的な不安定性であるRayleigh-Taylorの研究に焦点をあて、その振る舞いをシミュレートし、オープンソースの状態を作り出す。
論文 参考訳(メタデータ) (2020-04-03T13:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。