論文の概要: Reusability Challenges of Scientific Workflows: A Case Study for Galaxy
- arxiv url: http://arxiv.org/abs/2309.07291v1
- Date: Wed, 13 Sep 2023 20:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 07:50:13.282465
- Title: Reusability Challenges of Scientific Workflows: A Case Study for Galaxy
- Title(参考訳): 科学的ワークフローの再利用性課題:Galaxyのケーススタディ
- Authors: Khairul Alam, Banani Roy, Alexander Serebrenik
- Abstract要約: 本研究では,既存の再使用可能性について検討し,いくつかの課題を明らかにした。
再利用性防止の課題には、ツールのアップグレード、ツールのサポート、設計上の欠陥、不完全性、ワークフローのロードの失敗などが含まれる。
- 参考スコア(独自算出の注目度): 56.78572674167333
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scientific workflow has become essential in software engineering because it
provides a structured approach to designing, executing, and analyzing
scientific experiments. Software developers and researchers have developed
hundreds of scientific workflow management systems so scientists in various
domains can benefit from them by automating repetitive tasks, enhancing
collaboration, and ensuring the reproducibility of their results. However, even
for expert users, workflow creation is a complex task due to the dramatic
growth of tools and data heterogeneity. Thus, scientists attempt to reuse
existing workflows shared in workflow repositories. Unfortunately, several
challenges prevent scientists from reusing those workflows. In this study, we
thus first attempted to identify those reusability challenges. We also offered
an action list and evidence-based guidelines to promote the reusability of
scientific workflows. Our intensive manual investigation examined the
reusability of existing workflows and exposed several challenges. The
challenges preventing reusability include tool upgrading, tool support
unavailability, design flaws, incomplete workflows, failure to load a workflow,
etc. Such challenges and our action list offered guidelines to future workflow
composers to create better workflows with enhanced reusability. In the future,
we plan to develop a recommender system using reusable workflows that can
assist scientists in creating effective and error-free workflows.
- Abstract(参考訳): 科学的なワークフローは、科学実験を設計、実行、分析するための構造化されたアプローチを提供するので、ソフトウェア工学において不可欠になっている。
ソフトウェア開発者や研究者は何百もの科学ワークフロー管理システムを開発しており、様々な分野の科学者が反復的なタスクを自動化し、コラボレーションを強化し、結果の再現性を確保することで恩恵を受けることができる。
しかし、専門家のユーザでさえ、ツールの劇的な成長とデータの多様性のため、ワークフローの作成は複雑なタスクである。
したがって、科学者はワークフローリポジトリで共有されている既存のワークフローを再利用しようとする。
残念なことに、いくつかの課題は科学者がこれらのワークフローを再利用することを妨げる。
そこで本研究では,これらの再利用可能な課題の同定を試みた。
我々はまた、科学的ワークフローの再利用を促進するためのアクションリストとエビデンスに基づくガイドラインも提示した。
我々は,既存のワークフローの再利用可能性を調査し,いくつかの課題を明らかにした。
再利用性防止の課題には、ツールのアップグレード、ツールサポートの非可用性、設計上の欠陥、不完全なワークフロー、ワークフローのロード失敗などが含まれる。
このような課題とアクションリストは、将来のワークフロー作曲家に対して、再利用性を高めたより良いワークフローを作成するためのガイドラインを提供します。
将来的には、科学者が効果的でエラーのないワークフローを作成するのを支援する再利用可能なワークフローを用いたリコメンダシステムを開発する予定です。
関連論文リスト
- ExaWorks Software Development Kit: A Robust and Scalable Collection of Interoperable Workflow Technologies [3.1805622006446397]
不均一な科学的発見は、ますます高性能なコンピューティングプラットフォーム上での実行を必要としている。
私たちはExaWorks Software Development Kit(SDK)の開発でこの問題に対処することに貢献しました。
SDKは、現在のベストプラクティスに従って開発された一連のワークフロー技術であり、特にHPCプラットフォームで動作するように設計されている。
論文 参考訳(メタデータ) (2024-07-23T17:00:09Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - An Empirical Study of Developers' Challenges in Implementing Workflows as Code: A Case Study on Apache Airflow [9.189463227291377]
開発者の課題と根本原因を理解するために,9,591のAirflow関連質問から得られたStack Overflowポストを調査した。
ワークフローを定義し実行する際に、最も大きな障害が発生することが分かっています。
分析では,不正な設定,複雑な環境設定,Airflowとそれと相互作用する外部システムに関する基本的な知識の欠如など,課題の背後にある10の根本原因を特定した。
論文 参考訳(メタデータ) (2024-05-31T20:16:03Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - Large Language Models to the Rescue: Reducing the Complexity in
Scientific Workflow Development Using ChatGPT [11.410608233274942]
科学システムは、大規模なデータセット上で複雑なデータ分析パイプラインを表現および実行するためにますます人気がある。
しかし、多くのブラックボックスツールと実行に必要な深いインフラストラクチャスタックが関与しているため、実装は難しい。
本研究では,大規模言語モデル,特にChatGPTの効率性を検討した。
論文 参考訳(メタデータ) (2023-11-03T10:28:53Z) - CLAIMED -- the open source framework for building coarse-grained
operators for accelerated discovery in science [0.0]
CLAIMEDは、科学者が科学演算子を再コンパイルすることによって以前の研究から引き出すのを支援することで、再利用可能な演算子とスケーラブルな科学的不可知性を構築するためのフレームワークである。
CLAIMEDはプログラミング言語、科学ライブラリ、実行環境である。
論文 参考訳(メタデータ) (2023-07-12T11:54:39Z) - Multi-Fidelity Active Learning with GFlowNets [77.01923839831899]
我々は,複数のブラックボックス関数の近似を低忠実度かつ低コストで利用できる多忠実能動学習のためのGFlowNetsを提案する。
この結果から,GFlowNetsを用いた多要素能動学習は,異なるコストと忠実度で複数のオラクルの可用性を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2023-06-20T17:43:42Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。