Fugu-MT 論文翻訳(概要): Empirical Analysis on CI/CD Pipeline Evolution in Machine Learning Projects

論文の概要: Empirical Analysis on CI/CD Pipeline Evolution in Machine Learning Projects

arxiv url: http://arxiv.org/abs/2403.12199v2
Date: Wed, 20 Mar 2024 18:43:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 12:50:46.119548
Title: Empirical Analysis on CI/CD Pipeline Evolution in Machine Learning Projects
Title（参考訳）: 機械学習プロジェクトにおけるCI/CDパイプラインの進化に関する実証分析
Authors: Alaa Houerbi, Chadha Siala, Alexis Tucker, Dhia Elhaq Rzig, Foyzul Hassan,
Abstract要約: この研究は、機械学習(ML)ソフトウェアシステムにおいて、継続的インテグレーションとデリバリ(CI/CD)の構成がどのように進化するかについて、最初の経験的分析を提示する。我々は508のオープンソースMLプロジェクトから収集した343のコミットを手動で分析し、CI/CD構成変更カテゴリを特定した。我々は15,634コミットで頻繁なCI/CD構成変更パターンを識別するCI/CD構成変更クラスタリングツールを開発した。
参考スコア（独自算出の注目度）: 1.1010026679581653
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The growing popularity of machine learning (ML) and the integration of ML components with other software artifacts has led to the use of continuous integration and delivery (CI/CD) tools, such as Travis CI, GitHub Actions, etc. that enable faster integration and testing for ML projects. Such CI/CD configurations and services require synchronization during the life cycle of the projects. Several works discussed how CI/CD configuration and services change during their usage in traditional software systems. However, there is very limited knowledge of how CI/CD configuration and services change in ML projects. To fill this knowledge gap, this work presents the first empirical analysis of how CI/CD configuration evolves for ML software systems. We manually analyzed 343 commits collected from 508 open-source ML projects to identify common CI/CD configuration change categories in ML projects and devised a taxonomy of 14 co-changes in CI/CD and ML components. Moreover, we developed a CI/CD configuration change clustering tool that identified frequent CI/CD configuration change patterns in 15,634 commits. Furthermore, we measured the expertise of ML developers who modify CI/CD configurations. Based on this analysis, we found that 61.8% of commits include a change to the build policy and minimal changes related to performance and maintainability compared to general open-source projects. Additionally, the co-evolution analysis identified that CI/CD configurations, in many cases, changed unnecessarily due to bad practices such as the direct inclusion of dependencies and a lack of usage of standardized testing frameworks. More practices were found through the change patterns analysis consisting of using deprecated settings and reliance on a generic build language. Finally, our developer's expertise analysis suggests that experienced developers are more inclined to modify CI/CD configurations.
Abstract（参考訳）: 機械学習(ML)の人気が高まり、他のソフトウェアアーティファクトとのMLコンポーネントの統合が増加し、Travis CIやGitHub Actionsなどの継続的インテグレーションとデリバリ(CI/CD)ツールが利用されるようになった。このようなCI/CD構成とサービスは、プロジェクトのライフサイクル中に同期を必要とする。従来のソフトウェアシステムにおけるCI/CD構成とサービスの使い方について、いくつかの研究が議論された。しかしながら、MLプロジェクトでのCI/CD構成とサービスの変更に関する知識は限られている。この知識ギャップを埋めるために、この研究は、MLソフトウェアシステムにおけるCI/CD構成の進化に関する最初の経験的分析を示す。我々は508のオープンソースMLプロジェクトから収集された343のコミットを手動で分析し、MLプロジェクトにおいて一般的なCI/CD構成変更カテゴリを特定し、CI/CDとMLコンポーネントの14の共変更の分類法を考案した。さらに, 頻繁なCI/CD構成変更パターンを15,634コミットで識別するCI/CD構成変更クラスタリングツールを開発した。さらに、CI/CD構成を変更するML開発者の専門知識を測定しました。この分析から、コミットの61.8%がビルドポリシーの変更と、一般的なオープンソースプロジェクトと比較してパフォーマンスと保守性に関する最小限の変更を含んでいることがわかった。さらに、共進化分析では、CI/CD構成が、依存関係の直接包摂や標準化されたテストフレームワークの使用の欠如といった悪いプラクティスのために、不要に変更されたことが判明した。推奨外の設定とジェネリックビルド言語への依存による変更パターンの分析を通じて、さらに多くのプラクティスが見つかった。最後に、私たちの開発者の専門知識分析は、経験豊富な開発者がCI/CD構成を変更する傾向にあることを示唆しています。

関連論文リスト

When AI Agents Touch CI/CD Configurations: Frequency and Success [0.0]
AIエージェントがYAMLに触れる1,605のGitHubリポジトリから8,031のエージェントプルリクエスト(PR)を分析します。エージェントがCI/CDを変更する場合、96.77%はGitHub Actionsをターゲットにしている。これらの結果は、AIエージェントがCI/CDを変更することは滅多になく、主にGitHub Actionsに集中していることを示している。
論文参考訳（メタデータ） (2026-01-24T11:14:22Z)
Environment-Aware Code Generation: How far are We? [52.69113158357018]
大規模言語モデル(LLM)がユーザの特定の環境に適した実行可能コードを確実に生成できるかどうかは不明である。本稿では,環境対応コード生成(EACG)の最初の体系的研究について述べる。その結果,現在のLLMは環境固有のコード生成に苦しむ一方で,環境の適合性や実行性も向上していることがわかった。
論文参考訳（メタデータ） (2026-01-18T04:58:15Z)
An ML-based Approach to Predicting Software Change Dependencies: Insights from an Empirical Study on OpenStack [0.41232474244672235]
現代のソフトウェアシステムでは、依存関係はチーム間で複数のコンポーネントにまたがり、開発とデプロイメントの課題を生み出します。 2つのMLモデルを利用する半自動アプローチを提案する。提案モデルでは,平均AUCスコアは79.33%,91.89%,Brierスコアは0.11,0.014であった。
論文参考訳（メタデータ） (2025-08-07T05:16:29Z)
CIgrate: Automating CI Service Migration with Large Language Models [2.3020018305241337]
本稿では,Large Language Models (LLMs) を用いてCIマイグレーションを改善することができるかを検討する。 LLMはコード生成と変換タスクにおいて強力な機能を示している。自動CI構成移行のためのLLMベースのフレームワークであるCIgrateを提案する。
論文参考訳（メタデータ） (2025-07-27T19:51:37Z)
From First Use to Final Commit: Studying the Evolution of Multi-CI Service Adoption [0.0]
私たちは2008年1月から2024年12月までにGitHubでホストされた18,924のJavaプロジェクトの歴史的CI採用を分析した。分析の結果、同じプロジェクト内で複数のCIサービスを使用することは、5つに1つ近いプロジェクトで繰り返し見られるパターンであることが分かりました。
論文参考訳（メタデータ） (2025-07-27T01:32:22Z)
Centrality Change Proneness: an Early Indicator of Microservice Architectural Degradation [48.55946052680251]
時間ネットワークの研究は、進化するネットワークを記述し分析する方法として現れてきた。これまでの研究では,サイズや複雑性,品質といったソフトウェアメトリクスが,マイクロサービスの集中度とどのように関係しているかが検討されてきた。本研究は, 時間集中度指標が建築劣化の早期検出に有効かどうかを考察する。
論文参考訳（メタデータ） (2025-06-09T12:22:12Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
Specifications: The missing link to making the development of LLM systems an engineering discipline [65.10077876035417]
我々は、構造化出力、プロセスの監督、テストタイム計算など、これまでの分野の進歩について論じる。モジュール型かつ信頼性の高いLCMシステムの開発に向けた研究の今後の方向性について概説する。
論文参考訳（メタデータ） (2024-11-25T07:48:31Z)
CI/CD Configuration Practices in Open-Source Android Apps: An Empirical Study [0.1433758865948252]
2,564のAndroidアプリで,継続的インテグレーションと継続的デリバリのプラクティスに関する実証的研究を行います。プロジェクトやサービス間で共通性や標準が欠如していることが、複雑なYML構成につながります。我々の研究は、モバイルアプリケーションのCI/CDプロセスを改善するための自動化とAIツールの必要性を強調している。
論文参考訳（メタデータ） (2024-11-09T05:46:43Z)
Adoption and Adaptation of CI/CD Practices in Very Small Software Development Entities: A Systematic Literature Review [0.0]
本研究は、ソフトウェア開発における極小エンティティ(VSE)における継続的インテグレーションと継続的デリバリ(CI/CD)プラクティスの導入に関する体系的なレビューを示す。この研究は、一般的なCI/CDプラクティスを特定し、VSEの特定の制限を特徴づけ、これらのプラクティスを小規模環境に適用するための戦略を探求する13の研究を分析している。
論文参考訳（メタデータ） (2024-09-29T04:43:15Z)
Open-CD: A Comprehensive Toolbox for Change Detection [59.79011759027916]
Open-CDは変更検出ツールボックスで、変更検出方法の豊富なセットと関連するコンポーネントとモジュールを含んでいる。徐々に、多くの一般的な変更検出方法や同時代のモジュールをカバーする統一されたプラットフォームへと進化していく。
論文参考訳（メタデータ） (2024-07-22T01:04:16Z)
Standardizing Structural Causal Models [80.21199731817698]
ベンチマークアルゴリズムのための内部標準構造因果モデル(iSCM)を提案する。構成上、iSCMは$operatornameVar$-sortableではなく、実験的に示すように、$operatornameR2$-sortableではない。
論文参考訳（メタデータ） (2024-06-17T14:52:21Z)
Detecting Continuous Integration Skip : A Reinforcement Learning-based Approach [0.4297070083645049]
継続的統合(CI)プラクティスは、自動ビルドとテストプロセスを採用することで、コード変更のシームレスな統合を促進する。 Travis CIやGitHub Actionsといった一部のフレームワークは、CIプロセスの簡素化と強化に大きく貢献している。開発者はCI実行に適したコミットやスキップの候補としてコミットを正確にフラグ付けすることの難しさに悩まされ続けている。
論文参考訳（メタデータ） (2024-05-15T18:48:57Z)
DevBench: A Comprehensive Benchmark for Software Development [72.24266814625685]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。 GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文参考訳（メタデータ） (2024-03-13T15:13:44Z)
Toward Automatically Completing GitHub Workflows [16.302521048148748]
GH-WCOM(GitHub COMpletion)は、開発者が特定のCI/CDパイプライン、すなわちGitHubを書くのをサポートするトランスフォーマーベースのアプローチである。我々の実証研究は、GH-WCOMが34.23%の正確な予測を提供することを示している。
論文参考訳（メタデータ） (2023-08-31T14:53:00Z)
Machine Learning-Enabled Software and System Architecture Frameworks [48.87872564630711]
データサイエンスと機械学習に関連する関心事、例えばデータサイエンティストやデータエンジニアの利害関係者は、まだ既存のアーキテクチャフレームワークには含まれていない。 10か国25以上の組織から61名の被験者を対象に調査を行った。
論文参考訳（メタデータ） (2023-08-09T21:54:34Z)
On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。 Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文参考訳（メタデータ） (2023-06-08T20:14:46Z)
OpenICL: An Open-Source Framework for In-context Learning [48.75452105457122]
In-context Learning (ICL) と大規模言語モデル評価のためのオープンソースツールキット OpenICL を紹介する。 OpenICLは、ユーザが自分のニーズに合ったさまざまなコンポーネントを簡単に組み合わせられるように、非常に柔軟なアーキテクチャで研究に親しみやすい。 OpenICLの有効性は、分類、QA、機械翻訳、意味解析を含む幅広いNLPタスクで検証されている。
論文参考訳（メタデータ） (2023-03-06T06:20:25Z)
Collective Knowledge: organizing research projects as a database of reusable components and portable workflows with common APIs [0.2538209532048866]
この記事では、集合的知識フレームワーク(CKまたはcKnowledge)のモチベーションと概要について述べる。 CKの概念は、研究プロジェクトを研究成果物をカプセル化した再利用可能なコンポーネントに分解することである。長期的な目標は、研究者と実践者を結びつけて、すべての知識を共有し再利用することで、イノベーションを加速させることである。
論文参考訳（メタデータ） (2020-11-02T17:42:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。