論文の概要: Performance Smells in ML and Non-ML Python Projects: A Comparative Study
- arxiv url: http://arxiv.org/abs/2504.20224v1
- Date: Mon, 28 Apr 2025 19:48:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.657907
- Title: Performance Smells in ML and Non-ML Python Projects: A Comparative Study
- Title(参考訳): MLおよび非ML Pythonプロジェクトのパフォーマンススメル:比較研究
- Authors: François Belias, Leuson Da Silva, Foutse Khomh, Cyrine Zid,
- Abstract要約: 本研究では、機械学習プロジェクトと非MLプロジェクトのパフォーマンスの臭いの比較分析を行う。
以上の結果から,MLプロジェクトはMLの計算的およびデータ集約的な性質により,性能の悪臭の影響を受けやすいことが示唆された。
本研究は,MLプロジェクトのユニークな特徴に合わせて,パフォーマンス最適化戦略を調整する必要があることを明らかにする。
- 参考スコア(独自算出の注目度): 10.064805853389277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Python is widely adopted across various domains, especially in Machine Learning (ML) and traditional software projects. Despite its versatility, Python is susceptible to performance smells, i.e., suboptimal coding practices that can reduce application efficiency. This study provides a comparative analysis of performance smells between ML and non-ML projects, aiming to assess the occurrence of these inefficiencies while exploring their distribution across stages in the ML pipeline. For that, we conducted an empirical study analyzing 300 Python-based GitHub projects, distributed across ML and non-ML projects, categorizing performance smells based on the RIdiom tool. Our results indicate that ML projects are more susceptible to performance smells likely due to the computational and data-intensive nature of ML workflows. We also observed that performance smells in the ML pipeline predominantly affect the Data Processing stage. However, their presence in the Model Deployment stage indicates that such smells are not limited to the early stages of the pipeline. Our findings offer actionable insights for developers, emphasizing the importance of targeted optimizations for smells prevalent in ML projects. Furthermore, our study underscores the need to tailor performance optimization strategies to the unique characteristics of ML projects, with particular attention to the pipeline stages most affected by performance smells.
- Abstract(参考訳): Pythonはさまざまな分野、特に機械学習(ML)や従来のソフトウェアプロジェクトで広く採用されている。
汎用性にも拘わらず、Pythonはパフォーマンスの臭い、すなわちアプリケーションの効率を低下させる準最適コーディングプラクティスに影響を受けやすい。
本研究は,MLパイプラインのステージ間の分散を探索しながら,これらの非効率性の発生を評価することを目的として,MLプロジェクトと非MLプロジェクトのパフォーマンスの臭いの比較分析を行う。
そのために、MLおよび非MLプロジェクトに分散した300のPythonベースのGitHubプロジェクトを分析し、RIdiomツールに基づいてパフォーマンスの臭いを分類した。
以上の結果から,MLプロジェクトは,MLワークフローの計算的およびデータ集約的な性質から,パフォーマンスの悪臭の影響を受けやすいことが示唆された。
また、MLパイプラインのパフォーマンスの臭いが、主にデータ処理のステージに影響を与えることも観察した。
しかし、モデルデプロイ段階での存在は、そのような臭いがパイプラインの初期段階に限らないことを示している。
私たちの発見は、MLプロジェクトで一般的な匂いに対するターゲット最適化の重要性を強調し、開発者に実用的な洞察を与えます。
さらに,本研究は,MLプロジェクトの特色に合わせて,パフォーマンス最適化戦略を調整することの必要性を強調し,特に,パフォーマンスの臭いに最も影響されたパイプラインステージに注目した。
関連論文リスト
- MLScent A tool for Anti-pattern detection in ML projects [5.669063174637433]
本稿では,コード臭い検出のための新しい静的解析ツールであるMLScentを紹介する。
MLScentは、主要な機械学習フレームワークに76の異なる検出器を実装している。
その結果、フレームワーク固有のアンチパターン、データハンドリングの問題、一般的なMLコードの臭いに高い精度が示される。
論文 参考訳(メタデータ) (2025-01-30T11:19:16Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能推定のためのより計算効率のよい指標として、事前学習損失に焦点を当てている。
FLP-Mは、事前トレーニング中に複数のソースからのデータセットを統合する実践的なニーズに対処する、パフォーマンス予測の基本的なアプローチである。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文 参考訳(メタデータ) (2024-01-24T20:30:52Z) - GEVO-ML: Optimizing Machine Learning Code with Evolutionary Computation [6.525197444717069]
GEVO-MLは、最適化の機会を発見し、機械学習カーネルのパフォーマンスをチューニングするためのツールである。
モデルトレーニングと予測の両方のために、GEVO-MLを2つの異なるMLワークロードでデモする。
GEVO-MLはこれらのモデルに大きな改善を加え、モデル精度が2%の緩和で90.43%の性能向上を達成した。
論文 参考訳(メタデータ) (2023-10-16T09:24:20Z) - Reasonable Scale Machine Learning with Open-Source Metaflow [2.637746074346334]
既存のツールを再購入しても、現在の生産性の問題は解決しない、と私たちは主張します。
私たちは、データ実践者の生産性を高めるために明示的に設計された、MLプロジェクトのためのオープンソースのフレームワークであるMetaflowを紹介します。
論文 参考訳(メタデータ) (2023-03-21T11:28:09Z) - Exploring Opportunistic Meta-knowledge to Reduce Search Spaces for
Automated Machine Learning [8.325359814939517]
本稿では,従来の経験から,パイプライン合成/最適化プロセスを開始する前に,利用可能な分類器/回帰器のプールを事前に計算できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-05-01T15:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。