論文の概要: Code Smells in Machine Learning Systems
- arxiv url: http://arxiv.org/abs/2203.00803v1
- Date: Wed, 2 Mar 2022 00:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 07:45:58.816331
- Title: Code Smells in Machine Learning Systems
- Title(参考訳): 機械学習システムにおけるコードスメル
- Authors: Jiri Gesi, Siqi Liu, Jiawei Li, Iftekhar Ahmed, Nachiappan Nagappan,
David Lo, Eduardo Santana de Almeida, Pavneet Singh Kochhar, Lingfeng Bao
- Abstract要約: 本研究は,ディープラーニングソフトウェアシステムにおけるコードの臭いに関する最初の研究である。
DLシステムにおいて,保守関連変更の9つの頻度で検出された。
新たに同定されたコードの臭いが、開発者の視点でDLシステムのメンテナンスに広く影響していることがわかりました。
- 参考スコア(独自算出の注目度): 27.763667152468983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Deep learning (DL) systems continuously evolve and grow, assuring their
quality becomes an important yet challenging task. Compared to non-DL systems,
DL systems have more complex team compositions and heavier data dependency.
These inherent characteristics would potentially cause DL systems to be more
vulnerable to bugs and, in the long run, to maintenance issues. Code smells are
empirically tested as efficient indicators of non-DL systems. Therefore, we
took a step forward into identifying code smells, and understanding their
impact on maintenance in this comprehensive study. This is the first study on
investigating code smells in the context of DL software systems, which helps
researchers and practitioners to get a first look at what kind of maintenance
modification made and what code smells developers have been dealing with. Our
paper has three major contributions. First, we comprehensively investigated the
maintenance modifications that have been made by DL developers via studying the
evolution of DL systems, and we identified nine frequently occurred
maintenance-related modification categories in DL systems. Second, we
summarized five code smells in DL systems. Third, we validated the prevalence,
and the impact of our newly identified code smells through a mixture of
qualitative and quantitative analysis. We found that our newly identified code
smells are prevalent and impactful on the maintenance of DL systems from the
developer's perspective.
- Abstract(参考訳): ディープラーニング(DL)システムが継続的に進化し成長するにつれて、その品質を保証することが重要な課題になります。
非DLシステムと比較して、DLシステムはより複雑なチーム構成と重いデータ依存を持つ。
こうした固有の特徴は、DLシステムがバグに対してより脆弱になり、長期的には保守上の問題を引き起こす可能性がある。
コードの臭いは非dlシステムの効率的な指標として実証的にテストされる。
そこで本研究では,コードの臭いを識別し,メンテナンスへの影響を理解するための一歩を踏み出した。
これはdlソフトウェアシステムのコンテキストにおけるコードの臭いの調査に関する最初の研究であり、研究者や実践者がどのようなメンテナンス修正を行い、開発者が対処してきたコードの臭いを理解するのに役立ちます。
私たちの論文には3つの大きな貢献がある。
まず, DL システムの進化を調べた上で, DL 開発者によるメンテナンス修正を総合的に検討し, DL システムにおいて, 保守関連変更の9つのカテゴリが頻繁に発生していることを確認した。
次に、DLシステムで5つのコードの臭いを要約した。
第3に、定性分析と定量分析の混合によって、新たに同定されたコードの影響を検証した。
新たに特定したコードの臭いが開発者の立場からdlシステムのメンテナンスに広く影響を与えていることが分かりました。
関連論文リスト
- LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Integration of Domain Expert-Centric Ontology Design into the CRISP-DM
for Cyber-Physical Production Systems [63.62764375279861]
機械学習(ML)とデータマイニング(DM)の手法は、収集されたデータから複雑で隠れたパターンを抽出する上で有望であることが証明されている。
しかし、このようなデータ駆動プロジェクトは、通常、CRISPDM(Cross-Industry Standard Process for Data Mining)で実行され、データの理解と準備に要する時間の不均等さのために失敗することが多い。
このコントリビューションは、データサイエンティストがCPPSの課題に対してより迅速かつ確実に洞察を得ることができるように、統合されたアプローチを提供することを目的としている。
論文 参考訳(メタデータ) (2023-07-21T15:04:00Z) - Code Smells for Machine Learning Applications [6.759291241573661]
機械学習アプリケーションにはコード品質に関するガイドラインが欠けている。
本稿では,さまざまなソースから収集された22種類の機械学習固有のコードの臭いを抽出し,識別する。
それぞれの匂いを、その状況、長期にわたる潜在的な問題、そして提案された解決策の説明で特定する。
論文 参考訳(メタデータ) (2022-03-25T16:23:02Z) - Data Smells: Categories, Causes and Consequences, and Detection of
Suspicious Data in AI-based Systems [3.793596705511303]
記事では、AIベースのシステムのコンテキストにおいて、その原因、結果、検出、使用に関するデータの臭いと精巧さを概念化している。
さらに、36のデータの臭いのカタログを3つのカテゴリ(可読性スメル、可視性スメル、一貫性スメル)に分けて提示する。
論文 参考訳(メタデータ) (2022-03-19T19:21:52Z) - Deep Class Incremental Learning from Decentralized Data [103.2386956343121]
我々は、対処すべきデータの継続的な流入がある、新しい、挑戦的な分散機械学習パラダイムに焦点を当てています。
典型的な(分散化された)クラスインクリメンタルな学習手法の基本的な分散化を実現するためのパラダイムを導入する。
本稿では, 歴史的モデルや複数のローカルサイトからの知識を連続的に一般モデルに伝達するための分散複合知識増分蒸留フレームワーク(DCID)を提案する。
論文 参考訳(メタデータ) (2022-03-11T15:09:33Z) - Characterizing Performance Bugs in Deep Learning Systems [7.245989243616551]
深層学習システムにおける症状,根本原因,およびパフォーマンスバグの露呈を特徴付けるための,最初の総合的研究について述べる。
以上の結果から, 高性能DLシステムの開発や, PBの検出, ローカライズが示唆された。
また、56PBのベンチマークをDLシステムに構築し、既存のアプローチでそれに取り組む能力を評価する。
論文 参考訳(メタデータ) (2021-12-03T08:08:52Z) - Empirical Analysis on Effectiveness of NLP Methods for Predicting Code
Smell [3.2973778921083357]
コードの臭いは、システムに固有の問題の表面的な指標である。
629パッケージ上に3つのExtreme機械学習マシンカーネルを使用して、8つのコードの臭いを識別します。
以上の結果から,放射基底関数型カーネルは,平均98.52の精度で3つのカーネル法のうち最高の性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2021-08-08T12:10:20Z) - Design Smells in Deep Learning Programs: An Empirical Study [9.112172220055431]
DL(Deep Learning)プログラムにおける設計の臭いは、DLコンポーネントの開発時に行われる設計や構成上の判断が貧弱である。
我々は、人気のあるDLアーキテクチャ、すなわちディープフィードフォワードニューラルネットワークのための8つの設計臭いのカタログを提示する。
論文 参考訳(メタデータ) (2021-07-05T21:26:05Z) - Deep Learning and Traffic Classification: Lessons learned from a
commercial-grade dataset with hundreds of encrypted and zero-day applications [72.02908263225919]
商業用DLトラフィック分類エンジンでの経験を共有します。
暗号化トラフィックから既知のアプリケーションや未知のゼロデイアプリケーションを特定します。
DLモデルに合わせ、最新技術よりも正確で軽量な新しい手法を提案します。
論文 参考訳(メタデータ) (2021-04-07T15:21:22Z) - A Survey of Deep Active Learning [54.376820959917005]
アクティブラーニング(AL)は、最も少ないサンプルをマークすることで、モデルの性能向上を最大化しようとする。
ディープラーニング(DL)はデータに対して欲張りであり、大量のパラメータを最適化するために大量のデータ供給を必要とする。
ディープラーニング(Deep Active Learning, DAL)が誕生した。
論文 参考訳(メタデータ) (2020-08-30T04:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。