論文の概要: Workflow Provenance in the Lifecycle of Scientific Machine Learning
- arxiv url: http://arxiv.org/abs/2010.00330v3
- Date: Wed, 25 Aug 2021 14:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 22:59:49.396173
- Title: Workflow Provenance in the Lifecycle of Scientific Machine Learning
- Title(参考訳): 科学的機械学習のライフサイクルにおけるワークフロープロヴァンス
- Authors: Renan Souza, Leonardo G. Azevedo, V\'itor Louren\c{c}o, Elton Soares,
Raphael Thiago, Rafael Brand\~ao, Daniel Civitarese, Emilio Vital Brazil,
Marcio Moreno, Patrick Valduriez, Marta Mattoso, Renato Cerqueira, Marco A.
S. Netto
- Abstract要約: 我々は、科学MLのライフサイクルをサポートするために、ワークフロー技術を活用して全体像を構築する。
i)データ分析のライフサイクルと分類の特徴づけ、(ii)W3C PROVに準拠したデータ表現と参照システムアーキテクチャを用いて、この視点を構築するための設計原則、(iii)393ノードと946GPUを持つHPCクラスタを用いて、石油・ガスのケースでの評価から学んだ教訓に貢献する。
- 参考スコア(独自算出の注目度): 1.6118907823528272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) has already fundamentally changed several businesses.
More recently, it has also been profoundly impacting the computational science
and engineering domains, like geoscience, climate science, and health science.
In these domains, users need to perform comprehensive data analyses combining
scientific data and ML models to provide for critical requirements, such as
reproducibility, model explainability, and experiment data understanding.
However, scientific ML is multidisciplinary, heterogeneous, and affected by the
physical constraints of the domain, making such analyses even more challenging.
In this work, we leverage workflow provenance techniques to build a holistic
view to support the lifecycle of scientific ML. We contribute with (i)
characterization of the lifecycle and taxonomy for data analyses; (ii) design
principles to build this view, with a W3C PROV compliant data representation
and a reference system architecture; and (iii) lessons learned after an
evaluation in an Oil & Gas case using an HPC cluster with 393 nodes and 946
GPUs. The experiments show that the principles enable queries that integrate
domain semantics with ML models while keeping low overhead (<1%), high
scalability, and an order of magnitude of query acceleration under certain
workloads against without our representation.
- Abstract(参考訳): 機械学習(ML)はすでにいくつかのビジネスを根本的に変えている。
最近では、地球科学、気候科学、健康科学といった計算科学や工学の分野にも大きな影響を与えている。
これらのドメインでは、再現性、モデル説明可能性、実験データ理解などの重要な要件を満たすために、科学的データとMLモデルを組み合わせた包括的なデータ分析を実行する必要がある。
しかし、科学MLは多分野的で異種であり、ドメインの物理的制約の影響を受けており、そのような分析をさらに困難にしている。
本研究では,科学MLのライフサイクルを支援するために,ワークフロー証明技術を活用して全体像を構築する。
私たちは貢献します
(i)データ分析のライフサイクル及び分類のキャラクタリゼーション
(ii)w3cが準拠したデータ表現と参照システムアーキテクチャを保証して、このビューを構築するための設計原則
(iii)393ノードと946gpuを備えたhpcクラスタを用いたオイル・アンド・ガスケースでの評価後に学んだ教訓。
実験の結果,低オーバーヘッド(1%),高スケーラビリティ,ある種のワークロード下でのクエリアクセラレーションの桁違いの順序を維持しながら,MLモデルとドメインセマンティクスを統合可能なクエリが可能であることがわかった。
関連論文リスト
- Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。
我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。
シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文 参考訳(メタデータ) (2024-08-22T07:33:11Z) - Improving Molecular Modeling with Geometric GNNs: an Empirical Study [56.52346265722167]
本稿では,異なる標準化手法,(2)グラフ作成戦略,(3)補助的なタスクが性能,拡張性,対称性の強制に与える影響に焦点をあてる。
本研究の目的は,分子モデリングタスクに最適なモデリングコンポーネントの選択を研究者に案内することである。
論文 参考訳(メタデータ) (2024-07-11T09:04:12Z) - Opportunities for machine learning in scientific discovery [16.526872562935463]
我々は、科学コミュニティが科学的な発見を達成するために機械学習技術をどのように活用できるかをレビューする。
課題は残るが、MLの原則的利用は基本的な科学的発見のための新たな道を開く。
論文 参考訳(メタデータ) (2024-05-07T09:58:02Z) - ML4PhySim : Machine Learning for Physical Simulations Challenge (The
airfoil design) [16.140736542578562]
この競争の目的は、物理的な問題を解決するための新しいML技術の開発を促進することである。
本研究では,AirfRANSというデータセットを用いて,翼設計シミュレーションを表現するタスクの学習を提案する。
我々の知る限りでは、これはMLベースのサロゲートアプローチを使用して物理シミュレーションのトレードオフ計算コスト/精度を改善するための最初の競争である。
論文 参考訳(メタデータ) (2024-03-03T22:10:21Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - A Mass-Conserving-Perceptron for Machine Learning-Based Modeling of Geoscientific Systems [1.1510009152620668]
我々は,PCベースとMLベースのモデリングアプローチのギャップを埋める手段として,物理的に解釈可能なMass Conserving Perceptron (MCP)を提案する。
MCPは、PCモデルの基礎となる有向グラフ構造とGRNNの間の固有同型を利用して、物理過程の質量保存性を明確に表す。
論文 参考訳(メタデータ) (2023-10-12T18:09:33Z) - Discovering Interpretable Physical Models using Symbolic Regression and
Discrete Exterior Calculus [55.2480439325792]
本稿では,記号回帰(SR)と離散指数計算(DEC)を組み合わせて物理モデルの自動発見を行うフレームワークを提案する。
DECは、SRの物理問題への最先端の応用を越えている、場の理論の離散的な類似に対して、ビルディングブロックを提供する。
実験データから連続体物理の3つのモデルを再発見し,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-10T13:23:05Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Machine Learning in Nano-Scale Biomedical Engineering [77.75587007080894]
ナノスケールバイオメディカルエンジニアリングにおける機械学習の利用に関する既存の研究について概説する。
ML問題として定式化できる主な課題は、3つの主要なカテゴリに分類される。
提示された方法論のそれぞれについて、その原則、応用、制限に特に重点を置いている。
論文 参考訳(メタデータ) (2020-08-05T15:45:54Z) - Complete CVDL Methodology for Investigating Hydrodynamic Instabilities [0.49873153106566565]
流体力学において、最も重要な研究分野の1つは流体力学の不安定性と異なる流れ状態におけるその進化である。
現在、そのような現象、すなわち分析モデル、実験、シミュレーションを理解するために3つの主要な手法が使用されている。
我々は、この研究の大部分が、Deep Learning(CVDL、Deep Computer-Vision)の分野における最近の画期的な進歩を用いて、分析されるべきであると主張している。
具体的には、最も代表的な不安定性であるRayleigh-Taylorの研究に焦点をあて、その振る舞いをシミュレートし、オープンソースの状態を作り出す。
論文 参考訳(メタデータ) (2020-04-03T13:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。