論文の概要: Empirical Analysis on CI/CD Pipeline Evolution in Machine Learning Projects
- arxiv url: http://arxiv.org/abs/2403.12199v2
- Date: Wed, 20 Mar 2024 18:43:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 12:50:46.119548
- Title: Empirical Analysis on CI/CD Pipeline Evolution in Machine Learning Projects
- Title(参考訳): 機械学習プロジェクトにおけるCI/CDパイプラインの進化に関する実証分析
- Authors: Alaa Houerbi, Chadha Siala, Alexis Tucker, Dhia Elhaq Rzig, Foyzul Hassan,
- Abstract要約: この研究は、機械学習(ML)ソフトウェアシステムにおいて、継続的インテグレーションとデリバリ(CI/CD)の構成がどのように進化するかについて、最初の経験的分析を提示する。
我々は508のオープンソースMLプロジェクトから収集した343のコミットを手動で分析し、CI/CD構成変更カテゴリを特定した。
我々は15,634コミットで頻繁なCI/CD構成変更パターンを識別するCI/CD構成変更クラスタリングツールを開発した。
- 参考スコア(独自算出の注目度): 1.1010026679581653
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The growing popularity of machine learning (ML) and the integration of ML components with other software artifacts has led to the use of continuous integration and delivery (CI/CD) tools, such as Travis CI, GitHub Actions, etc. that enable faster integration and testing for ML projects. Such CI/CD configurations and services require synchronization during the life cycle of the projects. Several works discussed how CI/CD configuration and services change during their usage in traditional software systems. However, there is very limited knowledge of how CI/CD configuration and services change in ML projects. To fill this knowledge gap, this work presents the first empirical analysis of how CI/CD configuration evolves for ML software systems. We manually analyzed 343 commits collected from 508 open-source ML projects to identify common CI/CD configuration change categories in ML projects and devised a taxonomy of 14 co-changes in CI/CD and ML components. Moreover, we developed a CI/CD configuration change clustering tool that identified frequent CI/CD configuration change patterns in 15,634 commits. Furthermore, we measured the expertise of ML developers who modify CI/CD configurations. Based on this analysis, we found that 61.8% of commits include a change to the build policy and minimal changes related to performance and maintainability compared to general open-source projects. Additionally, the co-evolution analysis identified that CI/CD configurations, in many cases, changed unnecessarily due to bad practices such as the direct inclusion of dependencies and a lack of usage of standardized testing frameworks. More practices were found through the change patterns analysis consisting of using deprecated settings and reliance on a generic build language. Finally, our developer's expertise analysis suggests that experienced developers are more inclined to modify CI/CD configurations.
- Abstract(参考訳): 機械学習(ML)の人気が高まり、他のソフトウェアアーティファクトとのMLコンポーネントの統合が増加し、Travis CIやGitHub Actionsなどの継続的インテグレーションとデリバリ(CI/CD)ツールが利用されるようになった。
このようなCI/CD構成とサービスは、プロジェクトのライフサイクル中に同期を必要とする。
従来のソフトウェアシステムにおけるCI/CD構成とサービスの使い方について、いくつかの研究が議論された。
しかしながら、MLプロジェクトでのCI/CD構成とサービスの変更に関する知識は限られている。
この知識ギャップを埋めるために、この研究は、MLソフトウェアシステムにおけるCI/CD構成の進化に関する最初の経験的分析を示す。
我々は508のオープンソースMLプロジェクトから収集された343のコミットを手動で分析し、MLプロジェクトにおいて一般的なCI/CD構成変更カテゴリを特定し、CI/CDとMLコンポーネントの14の共変更の分類法を考案した。
さらに, 頻繁なCI/CD構成変更パターンを15,634コミットで識別するCI/CD構成変更クラスタリングツールを開発した。
さらに、CI/CD構成を変更するML開発者の専門知識を測定しました。
この分析から、コミットの61.8%がビルドポリシーの変更と、一般的なオープンソースプロジェクトと比較してパフォーマンスと保守性に関する最小限の変更を含んでいることがわかった。
さらに、共進化分析では、CI/CD構成が、依存関係の直接包摂や標準化されたテストフレームワークの使用の欠如といった悪いプラクティスのために、不要に変更されたことが判明した。
推奨外の設定とジェネリックビルド言語への依存による変更パターンの分析を通じて、さらに多くのプラクティスが見つかった。
最後に、私たちの開発者の専門知識分析は、経験豊富な開発者がCI/CD構成を変更する傾向にあることを示唆しています。
関連論文リスト
- CI/CD Configuration Practices in Open-Source Android Apps: An Empirical Study [0.1433758865948252]
2,564のAndroidアプリで,継続的インテグレーションと継続的デリバリのプラクティスに関する実証的研究を行います。
プロジェクトやサービス間で共通性や標準が欠如していることが、複雑なYML構成につながります。
我々の研究は、モバイルアプリケーションのCI/CDプロセスを改善するための自動化とAIツールの必要性を強調している。
論文 参考訳(メタデータ) (2024-11-09T05:46:43Z) - Adoption and Adaptation of CI/CD Practices in Very Small Software Development Entities: A Systematic Literature Review [0.0]
本研究は、ソフトウェア開発における極小エンティティ(VSE)における継続的インテグレーションと継続的デリバリ(CI/CD)プラクティスの導入に関する体系的なレビューを示す。
この研究は、一般的なCI/CDプラクティスを特定し、VSEの特定の制限を特徴づけ、これらのプラクティスを小規模環境に適用するための戦略を探求する13の研究を分析している。
論文 参考訳(メタデータ) (2024-09-29T04:43:15Z) - Open-CD: A Comprehensive Toolbox for Change Detection [59.79011759027916]
Open-CDは変更検出ツールボックスで、変更検出方法の豊富なセットと関連するコンポーネントとモジュールを含んでいる。
徐々に、多くの一般的な変更検出方法や同時代のモジュールをカバーする統一されたプラットフォームへと進化していく。
論文 参考訳(メタデータ) (2024-07-22T01:04:16Z) - Standardizing Structural Causal Models [80.21199731817698]
ベンチマークアルゴリズムのための内部標準構造因果モデル(iSCM)を提案する。
構成上、iSCMは$operatornameVar$-sortableではなく、実験的に示すように、$operatornameR2$-sortableではない。
論文 参考訳(メタデータ) (2024-06-17T14:52:21Z) - Detecting Continuous Integration Skip : A Reinforcement Learning-based Approach [0.4297070083645049]
継続的統合(CI)プラクティスは、自動ビルドとテストプロセスを採用することで、コード変更のシームレスな統合を促進する。
Travis CIやGitHub Actionsといった一部のフレームワークは、CIプロセスの簡素化と強化に大きく貢献している。
開発者はCI実行に適したコミットやスキップの候補としてコミットを正確にフラグ付けすることの難しさに悩まされ続けている。
論文 参考訳(メタデータ) (2024-05-15T18:48:57Z) - DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - Toward Automatically Completing GitHub Workflows [16.302521048148748]
GH-WCOM(GitHub COMpletion)は、開発者が特定のCI/CDパイプライン、すなわちGitHubを書くのをサポートするトランスフォーマーベースのアプローチである。
我々の実証研究は、GH-WCOMが34.23%の正確な予測を提供することを示している。
論文 参考訳(メタデータ) (2023-08-31T14:53:00Z) - Machine Learning-Enabled Software and System Architecture Frameworks [48.87872564630711]
データサイエンスと機械学習に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。
10か国25以上の組織から61名の被験者を対象に調査を行った。
論文 参考訳(メタデータ) (2023-08-09T21:54:34Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - OpenICL: An Open-Source Framework for In-context Learning [48.75452105457122]
In-context Learning (ICL) と大規模言語モデル評価のためのオープンソースツールキット OpenICL を紹介する。
OpenICLは、ユーザが自分のニーズに合ったさまざまなコンポーネントを簡単に組み合わせられるように、非常に柔軟なアーキテクチャで研究に親しみやすい。
OpenICLの有効性は、分類、QA、機械翻訳、意味解析を含む幅広いNLPタスクで検証されている。
論文 参考訳(メタデータ) (2023-03-06T06:20:25Z) - Collective Knowledge: organizing research projects as a database of
reusable components and portable workflows with common APIs [0.2538209532048866]
この記事では、集合的知識フレームワーク(CKまたはcKnowledge)のモチベーションと概要について述べる。
CKの概念は、研究プロジェクトを研究成果物をカプセル化した再利用可能なコンポーネントに分解することである。
長期的な目標は、研究者と実践者を結びつけて、すべての知識を共有し再利用することで、イノベーションを加速させることである。
論文 参考訳(メタデータ) (2020-11-02T17:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。