論文の概要: How do Machine Learning Projects use Continuous Integration Practices? An Empirical Study on GitHub Actions
- arxiv url: http://arxiv.org/abs/2403.09547v1
- Date: Thu, 14 Mar 2024 16:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 19:38:09.246485
- Title: How do Machine Learning Projects use Continuous Integration Practices? An Empirical Study on GitHub Actions
- Title(参考訳): マシンラーニングプロジェクトは継続的インテグレーションの実践をどのように利用するのか? GitHub Actionsに関する実証的研究
- Authors: João Helis Bernardo, Daniel Alencar da Costa, Sérgio Queiroz de Medeiros, Uirá Kulesza,
- Abstract要約: GitHub上の185のオープンソースプロジェクト(93のMLと92の非MLプロジェクト)の包括的な分析を行います。
本研究は,MLプロジェクトと非MLプロジェクト間のCI導入の差異を明らかにすることを目的として,定量化と定性的化の両面から構成する。
その結果,MLプロジェクトではビルド期間が長い場合が多く,中規模のMLプロジェクトでは非MLプロジェクトに比べてテストカバレッジが低いことがわかった。
- 参考スコア(独自算出の注目度): 1.5197353881052764
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Continuous Integration (CI) is a well-established practice in traditional software development, but its nuances in the domain of Machine Learning (ML) projects remain relatively unexplored. Given the distinctive nature of ML development, understanding how CI practices are adopted in this context is crucial for tailoring effective approaches. In this study, we conduct a comprehensive analysis of 185 open-source projects on GitHub (93 ML and 92 non-ML projects). Our investigation comprises both quantitative and qualitative dimensions, aiming to uncover differences in CI adoption between ML and non-ML projects. Our findings indicate that ML projects often require longer build durations, and medium-sized ML projects exhibit lower test coverage compared to non-ML projects. Moreover, small and medium-sized ML projects show a higher prevalence of increasing build duration trends compared to their non-ML counterparts. Additionally, our qualitative analysis illuminates the discussions around CI in both ML and non-ML projects, encompassing themes like CI Build Execution and Status, CI Testing, and CI Infrastructure. These insights shed light on the unique challenges faced by ML projects in adopting CI practices effectively.
- Abstract(参考訳): 継続的インテグレーション(CI)は、従来のソフトウェア開発において確立されたプラクティスだが、機械学習(ML)プロジェクトの分野におけるニュアンスは、いまだに解明されていない。
ML開発の独特な性質を考えると、この文脈でCIプラクティスがどのように採用されているかを理解することは、効果的なアプローチの調整に不可欠です。
本研究では,GitHub上の185のオープンソースプロジェクト(93のMLプロジェクトと92の非MLプロジェクト)を包括的に分析する。
本研究は,MLプロジェクトと非MLプロジェクト間のCI導入の差異を明らかにすることを目的として,定量化と定性的化の両面から構成する。
その結果,MLプロジェクトではビルド期間が長い場合が多く,中規模のMLプロジェクトでは非MLプロジェクトに比べてテストカバレッジが低いことがわかった。
さらに、中小規模のMLプロジェクトは、非MLプロジェクトに比べてビルド期間の傾向が増加する傾向にある。
さらに、定性的な分析は、CIビルドの実行とステータス、CIテスト、CIインフラストラクチャといったテーマを含む、MLプロジェクトと非MLプロジェクトのCIに関する議論を照らします。
これらの洞察は、CIプラクティスを効果的に採用する上で、MLプロジェクトが直面するユニークな課題を浮き彫りにした。
関連論文リスト
- A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Large Language Models as Reliable Knowledge Bases? [60.25969380388974]
大きな言語モデル(LLM)は潜在的な知識ベース(KB)と見なすことができる。
本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性に焦点をあてる。
ICLや微調整のような戦略は、LLMをより良くKBにするには失敗している。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - T-Eval: Evaluating the Tool Utilization Capability of Large Language
Models Step by Step [69.64348626180623]
大規模言語モデル (LLM) は様々なNLPタスクにおいて顕著な性能を達成した。
LLMのツール活用能力の評価と分析方法はまだ未検討である。
ツール利用能力を段階的に評価するためにT-Evalを導入する。
論文 参考訳(メタデータ) (2023-12-21T17:02:06Z) - An Empirical Study of Self-Admitted Technical Debt in Machine Learning Software [17.999512016809945]
自己承認型技術的負債(SATD)は、機械学習ベースのソフトウェアの品質に大きな影響を与える可能性がある。
本稿では,5つのドメインにわたる318のオープンソースMLプロジェクトと318の非MLプロジェクトを分析し,SATDをMLコードで解析することを目的とする。
論文 参考訳(メタデータ) (2023-11-20T18:56:36Z) - Fairness of ChatGPT and the Role Of Explainable-Guided Prompts [6.079011829257036]
本研究では,大規模言語モデル(LLM),特に OpenAI の GPT の信用リスク評価における可能性について検討する。
この結果から,LLMは従来の機械学習(ML)モデルの性能を並列化できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-14T09:20:16Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - MLCopilot: Unleashing the Power of Large Language Models in Solving
Machine Learning Tasks [31.733088105662876]
我々は、新しいフレームワークを導入することで、機械学習と人間の知識のギャップを埋めることを目指している。
本稿では、構造化された入力を理解するためのLLMの能力を拡張し、新しいMLタスクを解くための徹底的な推論を行う可能性を示す。
論文 参考訳(メタデータ) (2023-04-28T17:03:57Z) - Reasonable Scale Machine Learning with Open-Source Metaflow [2.637746074346334]
既存のツールを再購入しても、現在の生産性の問題は解決しない、と私たちは主張します。
私たちは、データ実践者の生産性を高めるために明示的に設計された、MLプロジェクトのためのオープンソースのフレームワークであるMetaflowを紹介します。
論文 参考訳(メタデータ) (2023-03-21T11:28:09Z) - "Project smells" -- Experiences in Analysing the Software Quality of ML
Projects with mllint [6.0141405230309335]
ソフトウェアの品質に関するより包括的な視点として,プロジェクトマネジメントにおける欠陥を考慮に入れた,プロジェクト臭いという新しい概念を紹介します。
オープンソースの静的解析ツールmllintも、これらの検出と緩和を支援するために実装されている。
この結果から,現在開発中のプロジェクトのニーズに適合する文脈対応静的解析ツールの必要性が示唆された。
論文 参考訳(メタデータ) (2022-01-20T15:52:24Z) - Understanding the Usability Challenges of Machine Learning In
High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。
多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。
児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文 参考訳(メタデータ) (2021-03-02T22:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。