論文の概要: Code Smells in Machine Learning Systems
- arxiv url: http://arxiv.org/abs/2203.00803v1
- Date: Wed, 2 Mar 2022 00:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 07:45:58.816331
- Title: Code Smells in Machine Learning Systems
- Title(参考訳): 機械学習システムにおけるコードスメル
- Authors: Jiri Gesi, Siqi Liu, Jiawei Li, Iftekhar Ahmed, Nachiappan Nagappan,
David Lo, Eduardo Santana de Almeida, Pavneet Singh Kochhar, Lingfeng Bao
- Abstract要約: 本研究は,ディープラーニングソフトウェアシステムにおけるコードの臭いに関する最初の研究である。
DLシステムにおいて,保守関連変更の9つの頻度で検出された。
新たに同定されたコードの臭いが、開発者の視点でDLシステムのメンテナンスに広く影響していることがわかりました。
- 参考スコア(独自算出の注目度): 27.763667152468983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Deep learning (DL) systems continuously evolve and grow, assuring their
quality becomes an important yet challenging task. Compared to non-DL systems,
DL systems have more complex team compositions and heavier data dependency.
These inherent characteristics would potentially cause DL systems to be more
vulnerable to bugs and, in the long run, to maintenance issues. Code smells are
empirically tested as efficient indicators of non-DL systems. Therefore, we
took a step forward into identifying code smells, and understanding their
impact on maintenance in this comprehensive study. This is the first study on
investigating code smells in the context of DL software systems, which helps
researchers and practitioners to get a first look at what kind of maintenance
modification made and what code smells developers have been dealing with. Our
paper has three major contributions. First, we comprehensively investigated the
maintenance modifications that have been made by DL developers via studying the
evolution of DL systems, and we identified nine frequently occurred
maintenance-related modification categories in DL systems. Second, we
summarized five code smells in DL systems. Third, we validated the prevalence,
and the impact of our newly identified code smells through a mixture of
qualitative and quantitative analysis. We found that our newly identified code
smells are prevalent and impactful on the maintenance of DL systems from the
developer's perspective.
- Abstract(参考訳): ディープラーニング(DL)システムが継続的に進化し成長するにつれて、その品質を保証することが重要な課題になります。
非DLシステムと比較して、DLシステムはより複雑なチーム構成と重いデータ依存を持つ。
こうした固有の特徴は、DLシステムがバグに対してより脆弱になり、長期的には保守上の問題を引き起こす可能性がある。
コードの臭いは非dlシステムの効率的な指標として実証的にテストされる。
そこで本研究では,コードの臭いを識別し,メンテナンスへの影響を理解するための一歩を踏み出した。
これはdlソフトウェアシステムのコンテキストにおけるコードの臭いの調査に関する最初の研究であり、研究者や実践者がどのようなメンテナンス修正を行い、開発者が対処してきたコードの臭いを理解するのに役立ちます。
私たちの論文には3つの大きな貢献がある。
まず, DL システムの進化を調べた上で, DL 開発者によるメンテナンス修正を総合的に検討し, DL システムにおいて, 保守関連変更の9つのカテゴリが頻繁に発生していることを確認した。
次に、DLシステムで5つのコードの臭いを要約した。
第3に、定性分析と定量分析の混合によって、新たに同定されたコードの影響を検証した。
新たに特定したコードの臭いが開発者の立場からdlシステムのメンテナンスに広く影響を与えていることが分かりました。
関連論文リスト
- LLMs as Continuous Learners: Improving the Reproduction of Defective Code in Software Issues [62.12404317786005]
EvoCoderは、イシューコード再現のための継続的学習フレームワークである。
その結果,既存のSOTA法よりも20%改善した。
論文 参考訳(メタデータ) (2024-11-21T08:49:23Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Data Quality Issues in Vulnerability Detection Datasets [1.6114012813668932]
脆弱性検出は、サイバーセキュリティのためのソフトウェアの潜在的な弱点を特定する上で、極めて難しいタスクである。
深層学習(DL)は検出プロセスの自動化に大きな進歩を遂げた。
この目的のためにDLモデルをトレーニングするために、多くのデータセットが作成されています。
しかし、これらのデータセットは、DLモデルの検出精度の低下につながるいくつかの問題に悩まされる。
論文 参考訳(メタデータ) (2024-10-08T13:31:29Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - On Security Weaknesses and Vulnerabilities in Deep Learning Systems [32.14068820256729]
具体的には、ディープラーニング(DL)フレームワークについて検討し、DLシステムにおける脆弱性に関する最初の体系的な研究を行う。
各種データベースの脆弱性パターンを探索する2ストリームデータ分析フレームワークを提案する。
我々は,脆弱性のパターンと修正の課題をよりよく理解するために,3,049個のDL脆弱性を大規模に検討した。
論文 参考訳(メタデータ) (2024-06-12T23:04:13Z) - How Far Have We Gone in Binary Code Understanding Using Large Language Models [51.527805834378974]
バイナリコード理解におけるLarge Language Models(LLM)の有効性を評価するためのベンチマークを提案する。
評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。
論文 参考訳(メタデータ) (2024-04-15T14:44:08Z) - Data Smells: Categories, Causes and Consequences, and Detection of
Suspicious Data in AI-based Systems [3.793596705511303]
記事では、AIベースのシステムのコンテキストにおいて、その原因、結果、検出、使用に関するデータの臭いと精巧さを概念化している。
さらに、36のデータの臭いのカタログを3つのカテゴリ(可読性スメル、可視性スメル、一貫性スメル)に分けて提示する。
論文 参考訳(メタデータ) (2022-03-19T19:21:52Z) - Characterizing Performance Bugs in Deep Learning Systems [7.245989243616551]
深層学習システムにおける症状,根本原因,およびパフォーマンスバグの露呈を特徴付けるための,最初の総合的研究について述べる。
以上の結果から, 高性能DLシステムの開発や, PBの検出, ローカライズが示唆された。
また、56PBのベンチマークをDLシステムに構築し、既存のアプローチでそれに取り組む能力を評価する。
論文 参考訳(メタデータ) (2021-12-03T08:08:52Z) - Design Smells in Deep Learning Programs: An Empirical Study [9.112172220055431]
DL(Deep Learning)プログラムにおける設計の臭いは、DLコンポーネントの開発時に行われる設計や構成上の判断が貧弱である。
我々は、人気のあるDLアーキテクチャ、すなわちディープフィードフォワードニューラルネットワークのための8つの設計臭いのカタログを提示する。
論文 参考訳(メタデータ) (2021-07-05T21:26:05Z) - Deep Learning and Traffic Classification: Lessons learned from a
commercial-grade dataset with hundreds of encrypted and zero-day applications [72.02908263225919]
商業用DLトラフィック分類エンジンでの経験を共有します。
暗号化トラフィックから既知のアプリケーションや未知のゼロデイアプリケーションを特定します。
DLモデルに合わせ、最新技術よりも正確で軽量な新しい手法を提案します。
論文 参考訳(メタデータ) (2021-04-07T15:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。