論文の概要: Reusability Challenges of Scientific Workflows: A Case Study for Galaxy
- arxiv url: http://arxiv.org/abs/2309.07291v1
- Date: Wed, 13 Sep 2023 20:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 07:50:13.282465
- Title: Reusability Challenges of Scientific Workflows: A Case Study for Galaxy
- Title(参考訳): 科学的ワークフローの再利用性課題:Galaxyのケーススタディ
- Authors: Khairul Alam, Banani Roy, Alexander Serebrenik
- Abstract要約: 本研究では,既存の再使用可能性について検討し,いくつかの課題を明らかにした。
再利用性防止の課題には、ツールのアップグレード、ツールのサポート、設計上の欠陥、不完全性、ワークフローのロードの失敗などが含まれる。
- 参考スコア(独自算出の注目度): 56.78572674167333
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scientific workflow has become essential in software engineering because it
provides a structured approach to designing, executing, and analyzing
scientific experiments. Software developers and researchers have developed
hundreds of scientific workflow management systems so scientists in various
domains can benefit from them by automating repetitive tasks, enhancing
collaboration, and ensuring the reproducibility of their results. However, even
for expert users, workflow creation is a complex task due to the dramatic
growth of tools and data heterogeneity. Thus, scientists attempt to reuse
existing workflows shared in workflow repositories. Unfortunately, several
challenges prevent scientists from reusing those workflows. In this study, we
thus first attempted to identify those reusability challenges. We also offered
an action list and evidence-based guidelines to promote the reusability of
scientific workflows. Our intensive manual investigation examined the
reusability of existing workflows and exposed several challenges. The
challenges preventing reusability include tool upgrading, tool support
unavailability, design flaws, incomplete workflows, failure to load a workflow,
etc. Such challenges and our action list offered guidelines to future workflow
composers to create better workflows with enhanced reusability. In the future,
we plan to develop a recommender system using reusable workflows that can
assist scientists in creating effective and error-free workflows.
- Abstract(参考訳): 科学的なワークフローは、科学実験を設計、実行、分析するための構造化されたアプローチを提供するので、ソフトウェア工学において不可欠になっている。
ソフトウェア開発者や研究者は何百もの科学ワークフロー管理システムを開発しており、様々な分野の科学者が反復的なタスクを自動化し、コラボレーションを強化し、結果の再現性を確保することで恩恵を受けることができる。
しかし、専門家のユーザでさえ、ツールの劇的な成長とデータの多様性のため、ワークフローの作成は複雑なタスクである。
したがって、科学者はワークフローリポジトリで共有されている既存のワークフローを再利用しようとする。
残念なことに、いくつかの課題は科学者がこれらのワークフローを再利用することを妨げる。
そこで本研究では,これらの再利用可能な課題の同定を試みた。
我々はまた、科学的ワークフローの再利用を促進するためのアクションリストとエビデンスに基づくガイドラインも提示した。
我々は,既存のワークフローの再利用可能性を調査し,いくつかの課題を明らかにした。
再利用性防止の課題には、ツールのアップグレード、ツールサポートの非可用性、設計上の欠陥、不完全なワークフロー、ワークフローのロード失敗などが含まれる。
このような課題とアクションリストは、将来のワークフロー作曲家に対して、再利用性を高めたより良いワークフローを作成するためのガイドラインを提供します。
将来的には、科学者が効果的でエラーのないワークフローを作成するのを支援する再利用可能なワークフローを用いたリコメンダシステムを開発する予定です。
関連論文リスト
- Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - WorkflowHub: a registry for computational workflows [0.34864924310198164]
分析記録と処理手順の記述の両方が再利用され、再利用され、利用可能であるべきである。
ワークフロー共有は、不要な再発明を減らし、再利用を促進し、非専門家のベストプラクティス分析へのアクセスを増やし、生産性を高める機会を提供する。
Hubは、コミュニティリポジトリにリンクするすべての計算レジストリに統一レジストリを提供する。
このレジストリは世界中に広がり、何百もの研究組織が関与し、700以上の登録がある。
論文 参考訳(メタデータ) (2024-10-09T14:36:27Z) - The Hidden Costs of Automation: An Empirical Study on GitHub Actions Workflow Maintenance [45.53834452021771]
GitHub Actions(GA)は、エンジニアリングタスクの自動実行を合理化するオーケストレーションプラットフォームである。
欠陥の修正、依存関係の更新、あるいは既存のワークフローファイルの修正には、人間の介入が必要である。
論文 参考訳(メタデータ) (2024-09-04T01:33:16Z) - Employing Artificial Intelligence to Steer Exascale Workflows with Colmena [37.42013214123005]
Colmenaは、アプリケーションがどのようにイベントに反応するかを一連の協調エージェントとして定義することを可能にする。
エクサスケールシステムにアプリケーションをデプロイしている間に克服した課題と、AIによって強化された科学について説明する。
私たちのビジョンは、Colmenaが科学コンピューティングの多くの領域でAIを活用する創造的なソリューションを刺激することです。
論文 参考訳(メタデータ) (2024-08-26T17:21:19Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - An Empirical Study of Developers' Challenges in Implementing Workflows as Code: A Case Study on Apache Airflow [9.189463227291377]
開発者の課題と根本原因を理解するために,9,591のAirflow関連質問から得られたStack Overflowポストを調査した。
ワークフローを定義し実行する際に、最も大きな障害が発生することが分かっています。
分析では,不正な設定,複雑な環境設定,Airflowとそれと相互作用する外部システムに関する基本的な知識の欠如など,課題の背後にある10の根本原因を特定した。
論文 参考訳(メタデータ) (2024-05-31T20:16:03Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - Large Language Models to the Rescue: Reducing the Complexity in
Scientific Workflow Development Using ChatGPT [11.410608233274942]
科学システムは、大規模なデータセット上で複雑なデータ分析パイプラインを表現および実行するためにますます人気がある。
しかし、多くのブラックボックスツールと実行に必要な深いインフラストラクチャスタックが関与しているため、実装は難しい。
本研究では,大規模言語モデル,特にChatGPTの効率性を検討した。
論文 参考訳(メタデータ) (2023-11-03T10:28:53Z) - Multi-Fidelity Active Learning with GFlowNets [65.91555804996203]
本稿では,GFlowNetsをサンプルとして多要素能動学習アルゴリズムを提案する。
分子探索タスクの評価は,GFlowNetsを用いた多要素能動学習が,その単要素の予算のごく一部で高い評価の候補を発見できることを示す。
論文 参考訳(メタデータ) (2023-06-20T17:43:42Z) - GFlowNets for AI-Driven Scientific Discovery [74.27219800878304]
我々はGFlowNetsと呼ばれる新しい確率論的機械学習フレームワークを提案する。
GFlowNetsは、実験科学ループのモデリング、仮説生成、実験的な設計段階に適用できる。
我々は、GFlowNetsがAIによる科学的発見の貴重なツールになり得ると論じている。
論文 参考訳(メタデータ) (2023-02-01T17:29:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。