論文の概要: An Empirical Study on Predictability of Software Code Smell Using Deep
Learning Models
- arxiv url: http://arxiv.org/abs/2108.04659v1
- Date: Sun, 8 Aug 2021 12:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-11 14:28:14.908733
- Title: An Empirical Study on Predictability of Software Code Smell Using Deep
Learning Models
- Title(参考訳): 深層学習モデルを用いたソフトウェアコード臭いの予測可能性に関する実証的研究
- Authors: Himanshu Gupta, Tanmay G. Kulkarni, Lov Kumar, Lalita Bhanu Murthy
Neti and Aneesh Krishna
- Abstract要約: コードの臭いは、汚染されたものの表面的な兆候ですが、ソフトウェア記述のプラクティスという意味では違います。
近年の研究では、コードの臭いを伴うコードは、ソフトウェア開発サイクルの変化の確率が高くなることが多いことが観察されている。
我々は、8種類のコードの臭いを予測するために、ソースコードから抽出した機能の助けを借りて、コードの臭い予測モデルを開発した。
- 参考スコア(独自算出の注目度): 3.2973778921083357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code Smell, similar to a bad smell, is a surface indication of something
tainted but in terms of software writing practices. This metric is an
indication of a deeper problem lies within the code and is associated with an
issue which is prominent to experienced software developers with acceptable
coding practices. Recent studies have often observed that codes having code
smells are often prone to a higher probability of change in the software
development cycle. In this paper, we developed code smell prediction models
with the help of features extracted from source code to predict eight types of
code smell. Our work also presents the application of data sampling techniques
to handle class imbalance problem and feature selection techniques to find
relevant feature sets. Previous studies had made use of techniques such as
Naive - Bayes and Random forest but had not explored deep learning methods to
predict code smell. A total of 576 distinct Deep Learning models were trained
using the features and datasets mentioned above. The study concluded that the
deep learning models which used data from Synthetic Minority Oversampling
Technique gave better results in terms of accuracy, AUC with the accuracy of
some models improving from 88.47 to 96.84.
- Abstract(参考訳): Code Smell(リンク)は、悪臭に似ているが、ソフトウェアを書くという観点では、汚染されているものの表面的な表示である。
このメトリクスは、コードの中に深い問題があることを示しており、受け入れ可能なコーディングプラクティスを持つ経験豊富なソフトウェア開発者にとって顕著な問題と関連しています。
近年の研究では、コードの臭いを伴うコードは、ソフトウェア開発サイクルの変化の確率が高くなる傾向がしばしば見られる。
本稿では,ソースコードから抽出した特徴を用いて8種類の臭いを予測できるコード臭い予測モデルを開発した。
また,クラス不均衡問題に対するデータサンプリング手法と,関連する特徴集合を見つけるための特徴選択手法についても検討した。
これまでの研究では,ナイーブベイやランダムフォレストといったテクニックを使用していたが,コードの臭いを予測する深層学習手法は検討していなかった。
上記の機能とデータセットを使用して、合計576のDeep Learningモデルがトレーニングされた。
この研究は、Synthetic Minority Oversampling Techniqueのデータを使用したディープラーニングモデルは、88.47から96.84に改善されたいくつかのモデルの精度で、精度においてより良い結果をもたらすと結論付けた。
関連論文リスト
- ChatGPT Code Detection: Techniques for Uncovering the Source of Code [0.0]
高度な分類技術を用いて、人間によって書かれたコードとChatGPTによって生成されたコードとを区別する。
我々は、強力な埋め込み機能(ブラックボックス)と教師付き学習アルゴリズムを組み合わせた新しいアプローチを採用する。
トレーニングされていない人間は、ランダムな推測よりも、同じタスクを解くことが示される。
論文 参考訳(メタデータ) (2024-05-24T12:56:18Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Rethinking Negative Pairs in Code Search [56.23857828689406]
我々は、重み項をInfoNCEに挿入する簡易で効果的なSoft-InfoNCE損失を提案する。
我々は,Soft-InfoNCEが学習したコード表現の分布を制御することと,より正確な相互情報推定の導出に与える影響を分析する。
論文 参考訳(メタデータ) (2023-10-12T06:32:42Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - Towards Using Data-Centric Approach for Better Code Representation
Learning [1.1470070927586016]
データ中心の観点から既存のコード学習モデルを改善することに重点を置いています。
我々は、訓練済みの学習モデルのノイズのあるサンプルを識別するために、いわゆるデータ影響法を用いる。
論文 参考訳(メタデータ) (2022-05-25T19:19:21Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - What do pre-trained code models know about code? [9.60966128833701]
事前に訓練されたコードモデルを調べるために、プローブと呼ばれる診断タスクを使用します。
BERT(英語で事前学習)、CodeBERT(ソースコードで事前学習)、CodeBERTa(自然言語で事前学習)、GraphCodeBERT(データフローでソースコードで事前学習)について検討した。
論文 参考訳(メタデータ) (2021-08-25T16:20:17Z) - Empirical Analysis on Effectiveness of NLP Methods for Predicting Code
Smell [3.2973778921083357]
コードの臭いは、システムに固有の問題の表面的な指標である。
629パッケージ上に3つのExtreme機械学習マシンカーネルを使用して、8つのコードの臭いを識別します。
以上の結果から,放射基底関数型カーネルは,平均98.52の精度で3つのカーネル法のうち最高の性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2021-08-08T12:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。