論文の概要: Towards Automated Detection of Inline Code Comment Smells
- arxiv url: http://arxiv.org/abs/2504.18956v1
- Date: Sat, 26 Apr 2025 15:38:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.065044
- Title: Towards Automated Detection of Inline Code Comment Smells
- Title(参考訳): インラインコードコメントスメルの自動検出に向けて
- Authors: Ipek Oztas, U Boran Torun, Eray Tüzün,
- Abstract要約: 機械学習(ML)モデルと大規模言語モデル(LLM)を用いて,インラインコードコメントの臭いを自動的に検出し,分類することを目指している。
並行して、強化データセット上で7つの異なる機械学習アルゴリズムを訓練し、その分類性能をGPT 4と比較した。
モデルの性能、特にランサムフォレストは66%の精度を達成しており、この領域における将来の研究の確かなベースラインを確立している。
- 参考スコア(独自算出の注目度): 2.2134505920972547
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code comments are important in software development because they directly influence software maintainability and overall quality. Bad practices of code comments lead to code comment smells, negatively impacting software maintenance. Recent research has been conducted on classifying inline code comment smells, yet automatically detecting these still remains a challenge. We aim to automatically detect and classify inline code comment smells through machine learning (ML) models and a large language model (LLM) to determine how accurately each smell type can be detected. We enhanced a previously labeled dataset, where comments are labeled according to a determined taxonomy, by augmenting it with additional code segments and their associated comments. GPT 4, a large language model, was used to classify code comment smells on both the original and augmented datasets to evaluate its performance. In parallel, we trained and tested seven different machine learning algorithms on the augmented dataset to compare their classification performance against GPT 4. The performance of models, particularly Random Forest, which achieved an overall accuracy of 69 percent, along with Gradient Boosting and Logistic Regression, each achieving 66 percent and 65 percent, respectively, establishes a solid baseline for future research in this domain. The Random Forest model outperformed all other ML models, by achieving the highest Matthews Correlation Coefficient (MCC) score of 0.44. The augmented dataset improved the overall classification accuracy of the GPT 4 model predictions from 34 percent to 55 percent. This study contributes to software maintainability by exploring the automatic detection and classification of inline code comment smells. We have made our augmented dataset and code artifacts available online, offering a valuable resource for developing automated comment smell detection tools.
- Abstract(参考訳): コードのコメントは、ソフトウェアの保守性と全体的な品質に直接影響するため、ソフトウェア開発において重要である。
コードコメントの悪行は、コードのコメントの臭いにつながり、ソフトウェアのメンテナンスに悪影響を及ぼします。
インラインコードのコメントの臭いを分類する最近の研究は行われているが、これらを自動的に検出することは依然として課題である。
機械学習(ML)モデルと大規模言語モデル(LLM)モデルを用いて、インラインコードコメントの臭いを自動的に検出し、分類し、それぞれの臭いの種類を正確に検出することを目指している。
コードセグメントと関連するコメントを追加することで、決定された分類基準に従ってコメントをラベル付けする、事前にラベル付けされたデータセットを拡張しました。
大規模な言語モデルであるGPT 4は、オリジナルのデータセットと拡張データセットの両方でコードコメントの臭いを分類し、パフォーマンスを評価するために使用された。
並行して、強化データセット上で7つの異なる機械学習アルゴリズムを訓練し、その分類性能をGPT 4と比較した。
モデルのパフォーマンス、特にRandom Forestは66%の精度を達成し、Gradient BoostingとLogistic Regressionはそれぞれ66%と65%を達成しており、この領域における将来の研究の確かなベースラインを確立している。
ランダムフォレストモデルは、マシューズ相関係数(MCC)スコア0.44を達成し、他のMLモデルよりも優れていた。
強化データセットは、GPT 4モデルの全体的な分類精度を34%から55%に改善した。
本研究は,インラインコードコメントの臭いを自動的に検出し,分類することにより,ソフトウェアの保守性向上に寄与する。
拡張データセットとコードアーティファクトをオンラインで公開し、自動コメント臭い検出ツールを開発するための貴重なリソースを提供しました。
関連論文リスト
- Benchmarking LLM for Code Smells Detection: OpenAI GPT-4.0 vs DeepSeek-V3 [0.0]
本研究では,この問題に対処するための構造的方法論と評価行列を提案する。
データセットは、Java、Python、JavaScript、C++の4つの著名なプログラミング言語にまたがっている。
我々は、精度、リコール、F1スコアを評価指標として、OpenAI GPT 4.0とDeepSeek-V3の2つの状態をベンチマークする。
論文 参考訳(メタデータ) (2025-04-22T16:44:39Z) - Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。
しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。
本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文 参考訳(メタデータ) (2025-02-20T18:32:19Z) - EnseSmells: Deep ensemble and programming language models for automated code smells detection [3.974095344344234]
ソフトウェアソースコードの匂いは、最適な設計と実装上の決定を示す。
本稿では,構造的特徴と統計的意味論の融合に重きを置く深層学習アーキテクチャを構築するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-07T15:35:19Z) - Too Noisy To Learn: Enhancing Data Quality for Code Review Comment Generation [2.990411348977783]
オープンソースのデータセットは、自動コードレビュータスクのためのニューラルネットワークのトレーニングに使用される。
これらのデータセットには、クリーニングメソッドにもかかわらず持続する大量のノイズの多いコメントが含まれている。
大規模言語モデル(LLM)を用いて,これらのデータセットをさらにクリーン化する手法を提案する。
論文 参考訳(メタデータ) (2025-02-04T22:48:58Z) - How Propense Are Large Language Models at Producing Code Smells? A Benchmarking Study [45.126233498200534]
コードの臭いを生成するための大規模言語モデルの妥当性を評価するためのベンチマークであるCodeSmellEvalを紹介する。
当社のベンチマークには、Propensity Smelly Score (PSC) と、メソッドレベルのコードの臭いを収集したデータセットであるCodeSmellDataが含まれている。
CodeSmellEvalの使用を実証するために,CodeLlamaとMistralの2つの最先端LLMを用いてケーススタディを行った。
論文 参考訳(メタデータ) (2024-12-25T21:56:35Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - PEOPL: Characterizing Privately Encoded Open Datasets with Public Labels [59.66777287810985]
プライバシとユーティリティのための情報理論スコアを導入し、不誠実なユーザの平均パフォーマンスを定量化する。
次に、ランダムなディープニューラルネットワークの使用を動機付ける符号化スキームのファミリーを構築する際のプリミティブを理論的に特徴づける。
論文 参考訳(メタデータ) (2023-03-31T18:03:53Z) - An Empirical Study on Predictability of Software Code Smell Using Deep
Learning Models [3.2973778921083357]
コードの臭いは、汚染されたものの表面的な兆候ですが、ソフトウェア記述のプラクティスという意味では違います。
近年の研究では、コードの臭いを伴うコードは、ソフトウェア開発サイクルの変化の確率が高くなることが多いことが観察されている。
我々は、8種類のコードの臭いを予測するために、ソースコードから抽出した機能の助けを借りて、コードの臭い予測モデルを開発した。
論文 参考訳(メタデータ) (2021-08-08T12:36:23Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。