Fugu-MT 論文翻訳(概要): Continuous Integration Practices in Machine Learning Projects: The Practitioners` Perspective

論文の概要: Continuous Integration Practices in Machine Learning Projects: The Practitioners` Perspective

arxiv url: http://arxiv.org/abs/2502.17378v1
Date: Mon, 24 Feb 2025 18:01:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.707357
Title: Continuous Integration Practices in Machine Learning Projects: The Practitioners` Perspective
Title（参考訳）: 機械学習プロジェクトにおける継続的統合の実践--実践者の視点から
Authors: João Helis Bernardo, Daniel Alencar da Costa, Filipe Roseiro Cogo, Sérgio Queiróz de Medeiros, Uirá Kulesza,
Abstract要約: 本研究では、47の機械学習(ML)プロジェクトから155人の実践者を調査した。実践者は、テストの複雑さ、インフラストラクチャ要件、ビルド期間と安定性など、8つの重要な違いを強調した。実践者が言及する一般的な課題には、プロジェクトの複雑さの向上、モデルのトレーニング要求、広範なデータハンドリング、計算リソースの増大、依存性管理などがある。
参考スコア（独自算出の注目度）: 1.4165457606269516
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Continuous Integration (CI) is a cornerstone of modern software development. However, while widely adopted in traditional software projects, applying CI practices to Machine Learning (ML) projects presents distinctive characteristics. For example, our previous work revealed that ML projects often experience longer build durations and lower test coverage rates compared to their non-ML counterparts. Building on these quantitative findings, this study surveys 155 practitioners from 47 ML projects to investigate the underlying reasons for these distinctive characteristics through a qualitative perspective. Practitioners highlighted eight key differences, including test complexity, infrastructure requirements, and build duration and stability. Common challenges mentioned by practitioners include higher project complexity, model training demands, extensive data handling, increased computational resource needs, and dependency management, all contributing to extended build durations. Furthermore, ML systems' non-deterministic nature, data dependencies, and computational constraints were identified as significant barriers to effective testing. The key takeaway from this study is that while foundational CI principles remain valuable, ML projects require tailored approaches to address their unique challenges. To bridge this gap, we propose a set of ML-specific CI practices, including tracking model performance metrics and prioritizing test execution within CI pipelines. Additionally, our findings highlight the importance of fostering interdisciplinary collaboration to strengthen the testing culture in ML projects. By bridging quantitative findings with practitioners' insights, this study provides a deeper understanding of the interplay between CI practices and the unique demands of ML projects, laying the groundwork for more efficient and robust CI strategies in this domain.
Abstract（参考訳）: 継続的インテグレーション(CI)は、現代のソフトウェア開発の基盤です。しかしながら、従来のソフトウェアプロジェクトで広く採用されているが、機械学習(ML)プロジェクトにCIプラクティスを適用すると、特有の特徴が示される。例えば、以前の調査では、MLプロジェクトでは、ML以外のプロジェクトに比べてビルド期間が長く、テストカバレッジ率が低いことが分かりました。これらの定量的知見に基づいて,47のMLプロジェクトから155人の実践者を対象に,定性的な視点から,これらの特徴の根底にある理由を調査した。実践者は、テストの複雑さ、インフラストラクチャ要件、ビルド期間と安定性など、8つの重要な違いを強調した。実践者が言及する一般的な課題は、プロジェクトの複雑さの向上、モデルのトレーニング要求、広範なデータハンドリング、計算リソースの増大、依存関係管理などだ。さらに、MLシステムの非決定論的性質、データ依存、計算制約が、効果的なテストの重要な障壁として認識された。この研究から得られる重要なポイントは、基本的なCI原則は価値を保ちながら、MLプロジェクトには独自の課題に取り組むための調整されたアプローチが必要であることだ。このギャップを埋めるために、モデルパフォーマンスメトリクスのトラッキングやCIパイプライン内のテスト実行の優先順位付けなど、ML固有のCIプラクティスのセットを提案する。さらに,MLプロジェクトのテスト文化を強化するために,学際的なコラボレーションを促進することの重要性を強調した。この研究は、実践者の洞察と定量的な発見を結び付けることで、CIプラクティスとMLプロジェクトのユニークな要求との相互作用をより深く理解し、この領域におけるより効率的で堅牢なCI戦略の基礎を築き上げます。

関連論文リスト

Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。 CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文参考訳（メタデータ） (2025-10-09T20:29:00Z)
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints [100.02131897927484]
本稿では,Multimodal Large Language Models(MLLM)のエンドツーエンドなネイティブトレーニングに焦点を当てる。そこで我々は,NaViLと呼ばれるネイティブMLLMと,シンプルで費用対効果の高いレシピを組み合わせて提案する。 14のマルチモーダルベンチマークによる実験結果から,既存のMLLMに対するNaViLの競合性能が確認された。
論文参考訳（メタデータ） (2025-10-09T17:59:37Z)
Towards Robust Evaluation of STEM Education: Leveraging MLLMs in Project-Based Learning [19.4760649326684]
プロジェクトベースラーニング(PBL)は、様々な高度に相関したマルチモーダルデータを含んでおり、STEM分野において重要な教育的アプローチとなっている。 MLLM(Multimodal large language model)の急速な発展に伴い、研究者は情報検索、知識理解、データ生成といったタスクを強化する可能性を探り始めた。既存のベンチマークは、自由形式の出力構造と厳格な人間の専門家による検証プロセスの両方を提供することで不足しており、実際の教育タスクを評価する上での有効性を制限している。
論文参考訳（メタデータ） (2025-05-16T11:01:01Z)
Evaluating Large Language Models for Real-World Engineering Tasks [75.97299249823972]
本稿では,実運用指向のエンジニアリングシナリオから得られた100以上の質問をキュレートしたデータベースを提案する。このデータセットを用いて、4つの最先端の大規模言語モデル(LLM)を評価する。以上の結果から,LLMは時間的および構造的推論において強みを示すが,抽象的推論や形式的モデリング,文脈に敏感な工学的論理にはかなり苦労することがわかった。
論文参考訳（メタデータ） (2025-05-12T14:05:23Z)
Exploring Individual Factors in the Adoption of LLMs for Specific Software Engineering Tasks [17.818350887316004]
本研究では,技術導入に伴う個々の属性と大規模言語モデル(LLM)の関係について検討する。その結果、タスク固有の採用は異なる要因の影響を受けており、その一部は単独で考えると、採用に悪影響を及ぼすことが判明した。
論文参考訳（メタデータ） (2025-04-03T13:07:04Z)
Exploring and Evaluating Multimodal Knowledge Reasoning Consistency of Multimodal Large Language Models [52.569132872560814]
マルチモーダルな大言語モデル(MLLM)は、テキストとビジョンの理解を深め、大きなブレークスルーを達成した。しかし、現在のMLLMは、マルチモーダルな知識推論において、これらのモダリティを効果的に統合する上での課題に直面している。 MLLMにおけるマルチモーダル知識推論における一貫性劣化の程度を解析・比較する。
論文参考訳（メタデータ） (2025-03-03T09:01:51Z)
An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文参考訳（メタデータ） (2025-02-25T03:40:36Z)
A Novel Psychometrics-Based Approach to Developing Professional Competency Benchmark for Large Language Models [0.0]
本稿では,厳密な心理測定原理に基づくベンチマーク開発への包括的アプローチを提案する。我々は、教育と教育の分野で新しいベンチマークを作成することで、このアプローチを説明する最初の試みを行う。我々はブルームの分類学によってガイドされ、テスト開発で訓練された教育専門家のコンソーシアムによって厳格に設計された新しいベンチマークを構築した。
論文参考訳（メタデータ） (2024-10-29T19:32:43Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
How do Machine Learning Projects use Continuous Integration Practices? An Empirical Study on GitHub Actions [1.5197353881052764]
GitHub上の185のオープンソースプロジェクト(93のMLと92の非MLプロジェクト)の包括的な分析を行います。本研究は,MLプロジェクトと非MLプロジェクト間のCI導入の差異を明らかにすることを目的として,定量化と定性的化の両面から構成する。その結果,MLプロジェクトではビルド期間が長い場合が多く,中規模のMLプロジェクトでは非MLプロジェクトに比べてテストカバレッジが低いことがわかった。
論文参考訳（メタデータ） (2024-03-14T16:35:39Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
A Case Study on Test Case Construction with Large Language Models: Unveiling Practical Insights and Challenges [2.7029792239733914]
本稿では,ソフトウェア工学の文脈におけるテストケース構築における大規模言語モデルの適用について検討する。定性分析と定量分析の混合により, LLMが試験ケースの包括性, 精度, 効率に与える影響を評価する。
論文参考訳（メタデータ） (2023-12-19T20:59:02Z)
When does In-context Learning Fall Short and Why? A Study on Specification-Heavy Tasks [54.71034943526973]
In-context Learning (ICL)は、大規模言語モデル(LLM)のデフォルトメソッドとなっている。 ICLは、複雑で広範囲なタスク仕様を持つタスクである、仕様の重いタスクを処理できないことが分かりました。我々は、コンテキストを具体的に理解できないこと、タスクスキーマが人間と理解できないこと、長文理解が不十分であること、の3つの主な理由を識別する。
論文参考訳（メタデータ） (2023-11-15T14:26:30Z)
Identifying Concerns When Specifying Machine Learning-Enabled Systems: A Perspective-Based Approach [1.2184324428571227]
PerSpecMLは、ML対応システムを指定するためのパースペクティブベースのアプローチである。 MLや非MLコンポーネントを含むどの属性がシステム全体の品質に寄与するかを、実践者が特定するのに役立つ。
論文参考訳（メタデータ） (2023-09-14T18:31:16Z)
CREATOR: Tool Creation for Disentangling Abstract and Concrete Reasoning of Large Language Models [74.22729793816451]
大規模言語モデル(LLM)はツールの利用において大きな進歩を遂げているが、その能力はAPIの可用性によって制限されている。我々は、LCMがドキュメンテーションとコード実現を使って独自のツールを作成できる新しいフレームワークCREATORを提案する。我々は,MATH と TabMWP のベンチマークで CREATOR を評価する。
論文参考訳（メタデータ） (2023-05-23T17:51:52Z)
Understanding the Usability Challenges of Machine Learning In High-Stakes Decision Making [67.72855777115772]
機械学習(ML)は、多種多様な成長を続ける一連のドメインに適用されている。多くの場合、MLやデータサイエンスの専門知識を持たないドメインの専門家は、ML予測を使用してハイステークな意思決定を行うように求められます。児童福祉スクリーニングにおけるMLユーザビリティの課題について,児童福祉スクリーニング者との一連のコラボレーションを通じて検討する。
論文参考訳（メタデータ） (2021-03-02T22:50:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。