論文の概要: MLScent A tool for Anti-pattern detection in ML projects
- arxiv url: http://arxiv.org/abs/2502.18466v1
- Date: Thu, 30 Jan 2025 11:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 04:52:29.616015
- Title: MLScent A tool for Anti-pattern detection in ML projects
- Title(参考訳): MLScent MLプロジェクトにおけるアンチパターン検出ツール
- Authors: Karthik Shivashankar, Antonio Martini,
- Abstract要約: 本稿では,コード臭い検出のための新しい静的解析ツールであるMLScentを紹介する。
MLScentは、主要な機械学習フレームワークに76の異なる検出器を実装している。
その結果、フレームワーク固有のアンチパターン、データハンドリングの問題、一般的なMLコードの臭いに高い精度が示される。
- 参考スコア(独自算出の注目度): 5.669063174637433
- License:
- Abstract: Machine learning (ML) codebases face unprecedented challenges in maintaining code quality and sustainability as their complexity grows exponentially. While traditional code smell detection tools exist, they fail to address ML-specific issues that can significantly impact model performance, reproducibility, and maintainability. This paper introduces MLScent, a novel static analysis tool that leverages sophisticated Abstract Syntax Tree (AST) analysis to detect anti-patterns and code smells specific to ML projects. MLScent implements 76 distinct detectors across major ML frameworks including TensorFlow (13 detectors), PyTorch (12 detectors), Scikit-learn (9 detectors), and Hugging Face (10 detectors), along with data science libraries like Pandas and NumPy (8 detectors each). The tool's architecture also integrates general ML smell detection (16 detectors), and specialized analysis for data preprocessing and model training workflows. Our evaluation demonstrates MLScent's effectiveness through both quantitative classification metrics and qualitative assessment via user studies feedback with ML practitioners. Results show high accuracy in identifying framework-specific anti-patterns, data handling issues, and general ML code smells across real-world projects.
- Abstract(参考訳): マシンラーニング(ML)コードベースは、複雑性が指数関数的に増加するにつれて、コード品質と持続可能性を維持する上で、前例のない課題に直面します。
従来のコードの臭い検出ツールは存在するが、モデルのパフォーマンス、再現性、保守性に大きな影響を及ぼすML固有の問題に対処できない。
本稿では,MLプロジェクト特有のアンチパターンやコードの臭いを検出するために,高度な抽象構文木(AST)解析を利用する新しい静的解析ツールであるMLScentを紹介する。
MLScentは、TensorFlow (13の検出器)、PyTorch (12の検出器)、Scikit-learn (9の検出器)、Hugging Face (10の検出器)、およびPandasやNumPy (8の検出器)などのデータサイエンスライブラリを含む主要なMLフレームワークに76の異なる検出器を実装している。
ツールのアーキテクチャには、一般的なML臭いの検出(16検出器)や、データ前処理やモデルトレーニングワークフローの専門的な分析も統合されている。
本評価では,ML実践者によるユーザスタディフィードバックによる定量的分類指標と定性評価の両方を用いてMLScentの有効性を実証する。
その結果、フレームワーク固有のアンチパターン、データハンドリングの問題、実世界のプロジェクト全体にわたる一般的なMLコードの臭いの特定において、高い精度が示される。
関連論文リスト
- $\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection [52.14468236527728]
3つのコアモジュールからなる新しいフレームワークX2$-DFDを提案する。
最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。
第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。
第3のモジュールであるWak Feature Supplementing (WFS)は、外部専用の機能を統合することで、低階機能における微調整MLLMの機能を改善する。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - Detecting Refactoring Commits in Machine Learning Python Projects: A Machine Learning-Based Approach [3.000496428347787]
MLRefScannerは、ML固有のものと一般的な操作の両方でコミットを特定する。
本研究は,多言語および技術的領域にわたるプログラム検出におけるML駆動型アプローチの可能性を明らかにする。
論文 参考訳(メタデータ) (2024-04-09T18:46:56Z) - When Code Smells Meet ML: On the Lifecycle of ML-specific Code Smells in
ML-enabled Systems [13.718420553401662]
本研究の目的は、ML特有のコードの臭いとして知られる、特定の品質関連関心事の出現と進化を調査することである。
具体的には、実際のML対応システムにおいて、ML特有のコードの臭いを経験的に分析して研究する計画を提案する。
探索的研究を行い、ML対応システムの大規模なデータセットをマイニングし、約337のプロジェクトに関する400万件のコミットを分析します。
論文 参考訳(メタデータ) (2024-03-13T07:43:45Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - Julearn: an easy-to-use library for leakage-free evaluation and
inspection of ML models [0.23301643766310373]
我々は、Julearnの設計の背景にある理論的根拠と、その中核となる特徴を提示し、以前に公表された研究プロジェクトの3つの例を示す。
Julearnは、最も一般的なMLの落とし穴に対して、ガードを組み込んだ使いやすい環境を提供することで、機械学習の世界への参入を単純化することを目指している。
論文 参考訳(メタデータ) (2023-10-19T08:21:12Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - Adaptive neighborhood Metric learning [184.95321334661898]
適応的近傍距離距離学習(ANML)という新しい距離距離距離距離距離距離学習アルゴリズムを提案する。
ANMLは線形埋め込みと深層埋め込みの両方を学ぶのに使うことができる。
本手法で提案するemphlog-exp平均関数は,深層学習手法をレビューするための新たな視点を与える。
論文 参考訳(メタデータ) (2022-01-20T17:26:37Z) - A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments [2.9726886415710276]
バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
論文 参考訳(メタデータ) (2020-08-28T19:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。