論文の概要: EnseSmells: Deep ensemble and programming language models for automated code smells detection
- arxiv url: http://arxiv.org/abs/2502.05012v1
- Date: Fri, 07 Feb 2025 15:35:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:43.627046
- Title: EnseSmells: Deep ensemble and programming language models for automated code smells detection
- Title(参考訳): EnseSmells: コードの自動臭い検出のためのディープアンサンブルとプログラミング言語モデル
- Authors: Anh Ho, Anh M. T. Bui, Phuong T. Nguyen, Amleto Di Salle, Bach Le,
- Abstract要約: ソフトウェアソースコードの匂いは、最適な設計と実装上の決定を示す。
本稿では,構造的特徴と統計的意味論の融合に重きを置く深層学習アーキテクチャを構築するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 3.974095344344234
- License:
- Abstract: A smell in software source code denotes an indication of suboptimal design and implementation decisions, potentially hindering the code understanding and, in turn, raising the likelihood of being prone to changes and faults. Identifying these code issues at an early stage in the software development process can mitigate these problems and enhance the overall quality of the software. Current research primarily focuses on the utilization of deep learning-based models to investigate the contextual information concealed within source code instructions to detect code smells, with limited attention given to the importance of structural and design-related features. This paper proposes a novel approach to code smell detection, constructing a deep learning architecture that places importance on the fusion of structural features and statistical semantics derived from pre-trained models for programming languages. We further provide a thorough analysis of how different source code embedding models affect the detection performance with respect to different code smell types. Using four widely-used code smells from well-designed datasets, our empirical study shows that incorporating design-related features significantly improves detection accuracy, outperforming state-of-the-art methods on the MLCQ dataset with with improvements ranging from 5.98% to 28.26%, depending on the type of code smell.
- Abstract(参考訳): ソフトウェアソースコードの臭いは、最適な設計と実装上の決定を示すもので、コードの理解を妨げる可能性があり、その結果として、変更や欠陥のリスクが高まる可能性がある。
ソフトウェア開発プロセスの初期段階でこれらの問題の特定は、これらの問題を緩和し、ソフトウェア全体の品質を高めることができる。
現在の研究は、コード臭いを検出するためのソースコード命令の内部に隠された文脈情報を調べるためのディープラーニングモデルの利用に焦点を当てており、構造的および設計的特徴の重要性に留意されている。
本稿では,プログラミング言語の事前学習モデルから得られた構造的特徴と統計的意味論の融合を重要視する,深層学習アーキテクチャを構築するための新しい手法を提案する。
さらに、異なるソースコードの埋め込みモデルが、異なるコードの臭いの種類に対する検出性能にどのように影響するかを詳細に分析する。
良く設計されたデータセットから広く使われている4つのコードの臭いを利用して、我々の経験的研究は、設計関連の特徴を取り入れることで、検出精度が大幅に向上し、MLCQデータセットの最先端メソッドのパフォーマンスが5.98%から28.26%に向上し、コードの臭いの種類に応じて改善されていることを示している。
関連論文リスト
- How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study [45.126233498200534]
コードの臭いを生成するための大規模言語モデルの妥当性を評価するためのベンチマークであるCodeSmellEvalを紹介する。
当社のベンチマークには、Propensity Smelly Score (PSC) と、メソッドレベルのコードの臭いを収集したデータセットであるCodeSmellDataが含まれている。
CodeSmellEvalの使用を実証するために,CodeLlamaとMistralの2つの最先端LLMを用いてケーススタディを行った。
論文 参考訳(メタデータ) (2024-12-25T21:56:35Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models [12.959392500354223]
私たちは、事前訓練されたコード生成モデルからコード理解タスクへの知識の移行の先駆者です。
CL4Dはデコーダのみのモデルの表現能力を向上させるために設計された,コントラスト学習手法である。
論文 参考訳(メタデータ) (2024-06-18T06:52:14Z) - Enhancing Source Code Representations for Deep Learning with Static
Analysis [10.222207222039048]
本稿では,静的解析とバグレポートやデザインパターンなどのコンテキストを,ディープラーニングモデルのためのソースコード表現に統合する方法について検討する。
我々はASTNN(Abstract Syntax Tree-based Neural Network)法を用いて,バグレポートやデザインパターンから得られたコンテキスト情報を追加して拡張する。
提案手法はソースコードの表現と処理を改善し,タスク性能を向上させる。
論文 参考訳(メタデータ) (2024-02-14T20:17:04Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - An Empirical Study on Predictability of Software Code Smell Using Deep
Learning Models [3.2973778921083357]
コードの臭いは、汚染されたものの表面的な兆候ですが、ソフトウェア記述のプラクティスという意味では違います。
近年の研究では、コードの臭いを伴うコードは、ソフトウェア開発サイクルの変化の確率が高くなることが多いことが観察されている。
我々は、8種類のコードの臭いを予測するために、ソースコードから抽出した機能の助けを借りて、コードの臭い予測モデルを開発した。
論文 参考訳(メタデータ) (2021-08-08T12:36:23Z) - Empirical Analysis on Effectiveness of NLP Methods for Predicting Code
Smell [3.2973778921083357]
コードの臭いは、システムに固有の問題の表面的な指標である。
629パッケージ上に3つのExtreme機械学習マシンカーネルを使用して、8つのコードの臭いを識別します。
以上の結果から,放射基底関数型カーネルは,平均98.52の精度で3つのカーネル法のうち最高の性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2021-08-08T12:10:20Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。