論文の概要: An Empirical Investigation on the Challenges in Scientific Workflow Systems Development
- arxiv url: http://arxiv.org/abs/2411.10890v1
- Date: Sat, 16 Nov 2024 21:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:55.342346
- Title: An Empirical Investigation on the Challenges in Scientific Workflow Systems Development
- Title(参考訳): 科学ワークフローシステム開発における課題に関する実証的研究
- Authors: Khairul Alam, Chanchal Roy, Banani Roy, Kartik Mittal,
- Abstract要約: この記事では、Stack Overflow(SO)とGitHubにおける開発者と研究者のインタラクションについて検討する。
問題を分析することで、13のトピック(例えば、エラーとバグ修正、ドキュメント、依存性)を特定し、データ構造と操作が最も難しいことを発見した。
また、データ構造や操作、タスク管理、ワークフロースケジューリングといった、SOとGitHubの共通するトピックも見つけました。
- 参考スコア(独自算出の注目度): 2.704899832646869
- License:
- Abstract: Scientific Workflow Systems (SWSs) are advanced software frameworks that drive modern research by orchestrating complex computational tasks and managing extensive data pipelines. These systems offer a range of essential features, including modularity, abstraction, interoperability, workflow composition tools, resource management, error handling, and comprehensive documentation. Utilizing these frameworks accelerates the development of scientific computing, resulting in more efficient and reproducible research outcomes. However, developing a user-friendly, efficient, and adaptable SWS poses several challenges. This study explores these challenges through an in-depth analysis of interactions on Stack Overflow (SO) and GitHub, key platforms where developers and researchers discuss and resolve issues. In particular, we leverage topic modeling (BERTopic) to understand the topics SWSs developers discuss on these platforms. We identified 10 topics developers discuss on SO (e.g., Workflow Creation and Scheduling, Data Structures and Operations, Workflow Execution) and found that workflow execution is the most challenging. By analyzing GitHub issues, we identified 13 topics (e.g., Errors and Bug Fixing, Documentation, Dependencies) and discovered that data structures and operations is the most difficult. We also found common topics between SO and GitHub, such as data structures and operations, task management, and workflow scheduling. Additionally, we categorized each topic by type (How, Why, What, and Others). We observed that the How type consistently dominates across all topics, indicating a need for procedural guidance among developers. The dominance of the How type is also evident in domains like Chatbots and Mobile development. Our study will guide future research in proposing tools and techniques to help the community overcome the challenges developers face when developing SWSs.
- Abstract(参考訳): 科学ワークフローシステム(SWS)は、複雑な計算タスクを編成し、広範なデータパイプラインを管理することによって、現代的な研究を促進する高度なソフトウェアフレームワークである。
これらのシステムは、モジュール性、抽象化、相互運用性、ワークフロー構成ツール、リソース管理、エラー処理、包括的なドキュメントなど、さまざまな重要な機能を提供します。
これらのフレームワークを利用することで、科学計算の発展が加速し、より効率的で再現可能な研究結果がもたらされる。
しかし、ユーザフレンドリで効率的で適応可能なSWSの開発にはいくつかの課題がある。
この記事では、Stack Overflow(SO)とGitHub上のインタラクションの詳細な分析を通じて、これらの課題について調査する。
特に、トピックモデリング(BERTopic)を活用して、SWS開発者がこれらのプラットフォームで議論するトピックを理解する。
私たちは、開発者がSO(例えば、ワークフローの作成とスケジューリング、データ構造と運用、ワークフロー実行)について議論する10のトピックを特定しました。
GitHubの問題を分析して、13のトピック(ErrorsとBug Fixing、Documentation、Dependenciesなど)を特定しました。
また、データ構造や操作、タスク管理、ワークフロースケジューリングといった、SOとGitHubの共通するトピックも見つけました。
さらに、各トピックをタイプ別に分類しました(方法、理由、何、その他)。
我々は、How型がすべてのトピックで一貫して支配的であり、開発者間の手続き的なガイダンスの必要性を示していることを観察した。
How型の優位性は、ChatbotsやMobile Developmentといったドメインでも明らかです。
本研究は,SWS開発において開発者が直面する課題を克服する上で,コミュニティを支援するためのツールや技術に関する今後の研究を導くものである。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - Mining Issue Trackers: Concepts and Techniques [6.99674326582747]
内外の利害関係者は「問題」を報告し、管理し、議論する
課題追跡ツールは、組織がユーザと対話し、ソフトウェア開発ライフサイクルのさまざまな側面を管理するために使用するソフトウェアツールである。
この章では、問題データをアルゴリズムで分析する4つの主要なユースケースについて論じる。
論文 参考訳(メタデータ) (2024-03-08T23:02:41Z) - An Empirical Study of Challenges in Machine Learning Asset Management [15.07444988262748]
既存の研究にもかかわらず、モデルバージョニングやデータトレーサビリティ、コラボレーションといった運用上の課題には、大きな知識ギャップが残っている。
本研究の目的は,開発者フォーラムやプラットフォームから15,065件の投稿を分析し,このギャップに対処することである。
ソフトウェア依存性、モデルデプロイメント、モデルトレーニングが最も議論されている16のマクロトピックにグループ化された、資産管理の課題に関連する133のトピックを明らかにしました。
論文 参考訳(メタデータ) (2024-02-25T05:05:52Z) - On the Interaction between Software Engineers and Data Scientists when
building Machine Learning-Enabled Systems [1.2184324428571227]
機械学習(ML)コンポーネントは、組織のコアシステムにますます統合されています。
重要な課題の1つは、緊密に連携する必要がある異なるバックグラウンドを持つアクター間の効果的な相互作用である。
本稿では,MLプロジェクトにおけるこれらの役割間の相互作用と協調のダイナミクスを理解するための探索ケーススタディを提案する。
論文 参考訳(メタデータ) (2024-02-08T00:27:56Z) - Revolutionizing API Documentation through Summarization [0.0]
APIドキュメンテーションは長く、ナビゲートが難しいため、Stack Overflowのような非公式なソースを探す必要がある。
BERTopicと抽出要約を用いて,簡潔で情報性の高いAPI要約を自動的に生成する。
これらの要約には、Stack Overflowに関する豊富な知識から得られた、一般的な使用法、一般的な開発者問題、潜在的なソリューションといった重要な洞察が含まれている。
論文 参考訳(メタデータ) (2024-01-21T01:18:08Z) - Reusability Challenges of Scientific Workflows: A Case Study for Galaxy [56.78572674167333]
本研究では,既存の再使用可能性について検討し,いくつかの課題を明らかにした。
再利用性防止の課題には、ツールのアップグレード、ツールのサポート、設計上の欠陥、不完全性、ワークフローのロードの失敗などが含まれる。
論文 参考訳(メタデータ) (2023-09-13T20:17:43Z) - The GitHub Development Workflow Automation Ecosystems [47.818229204130596]
大規模なソフトウェア開発は、非常に協力的な取り組みになっています。
この章では、開発ボットとGitHub Actionsのエコシステムについて解説する。
この領域における最先端技術に関する広範な調査を提供する。
論文 参考訳(メタデータ) (2023-05-08T15:24:23Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。