論文の概要: Improving the detection of technical debt in Java source code with an enriched dataset
- arxiv url: http://arxiv.org/abs/2411.05457v1
- Date: Fri, 08 Nov 2024 10:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:55:26.393708
- Title: Improving the detection of technical debt in Java source code with an enriched dataset
- Title(参考訳): 豊富なデータセットによるJavaソースコードの技術的負債の検出の改善
- Authors: Nam Le Hai, Anh M. T. Bui, Phuong T. Nguyen, Davide Di Ruscio, Rick Kazman,
- Abstract要約: 技術的負債(Technical debt, TD)とは、開発者が問題に対して迅速かつ簡単なソリューションを選択すると、追加の作業とコストが発生すること。
近年の研究では、ソースコードに埋め込まれたコメントを分析することで、SATD(Self-Admitted Technical Debts)の検出に焦点が当てられている。
コードコメントによって識別された最初のTDデータセットを、関連するソースコードとともにキュレートしました。
- 参考スコア(独自算出の注目度): 12.07607688189035
- License:
- Abstract: Technical debt (TD) is a term used to describe the additional work and costs that emerge when developers have opted for a quick and easy solution to a problem, rather than a more effective and well-designed, but time-consuming approach. Self-Admitted Technical Debts (SATDs) are a specific type of technical debts that developers intentionally document and acknowledge, typically via textual comments. While these self-admitted comments are a useful tool for identifying technical debts, most of the existing approaches focus on capturing crucial tokens associated with various categories of TD, neglecting the rich information embedded within the source code itself. Recent research has focused on detecting SATDs by analyzing comments embedded in source code, and there has been little work dealing with technical debts contained in the source code. To fill such a gap, in this study, through the analysis of comments and their associated source code from 974 Java projects hosted in the Stack corpus, we curated the first ever dataset of TD identified by code comments, coupled with its associated source code. Through an empirical evaluation, we found out that the comments of the resulting dataset help enhance the prediction performance of state-of-the-art SATD detection models. More importantly, including the classified source code significantly improves the accuracy in predicting various types of technical debt. In this respect, our work is two-fold: (i) We believe that our dataset will catalyze future work in the domain, inspiring various research issues related to the recognition of technical debt; (ii) The proposed classifiers may serve as baselines for other studies on the detection of TD by means of the curated dataset.
- Abstract(参考訳): 技術的負債(Technical debt、TD)とは、開発者がより効果的でよく設計されたが、時間を要するアプローチではなく、問題に対する迅速かつ簡単な解決策を選択した時に生じる、追加の作業とコストを記述するために用いられる用語である。
自己承認技術的負債(英: Self-Admitted Technical Debts、SATD)は、開発者が意図的に文書化して認識する特定の技術的負債の一種である。
これらの自己承認されたコメントは技術的負債を特定するのに有用なツールであるが、既存のアプローチのほとんどは、TDのさまざまなカテゴリに関連する重要なトークンをキャプチャし、ソースコード自体に埋め込まれた豊富な情報を無視することに焦点を当てている。
最近の研究は、ソースコードに埋め込まれたコメントを分析してSATDを検出することに重点を置いており、ソースコードに含まれる技術的負債を扱う作業はほとんど行われていない。
このようなギャップを埋めるために、本研究では、Stack corpusにホストされている974のJavaプロジェクトからのコメントとその関連ソースコードの分析を通じて、コードコメントによって識別されたTDのデータセットを、その関連ソースコードと組み合わせてキュレーションしました。
実験的な評価により,得られたデータセットのコメントが,最先端SATD検出モデルの予測性能を向上させることが判明した。
さらに重要なのは、分類されたソースコードを含むと、様々な技術的負債を予測する精度が大幅に向上することです。
この点において、我々の仕事は2つある。
一 当社のデータセットは、技術的負債の認識に関する様々な研究課題を刺激し、ドメインにおける今後の業務を円滑化するものと信じている。
(II) 提案した分類器は, 得られたデータセットを用いてTDの検出に関する他の研究のベースラインとして機能する可能性がある。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - MADE-WIC: Multiple Annotated Datasets for Exploring Weaknesses In Code [2.399010142304227]
MADE-WICは、機能とコメントの大規模なデータセットであり、技術的負債とコードの弱点に対する複数のアノテーションがある。
約860Kのコード関数と、12のオープンソースプロジェクトからの2.7M以上の関連コメントが含まれている。
論文 参考訳(メタデータ) (2024-08-09T16:32:38Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Systematic literature review on forecasting and prediction of technical debt evolution [0.0]
技術的負債(英: Technical debt、TD)とは、ソフトウェア品質の妥協によって生じる追加コストのこと。
本研究の目的は,ソフトウェア工学における既存の知識を探求し,研究と産業におけるアプローチの洞察を得ることである。
論文 参考訳(メタデータ) (2024-06-17T18:50:37Z) - A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。
多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文 参考訳(メタデータ) (2024-05-30T04:46:40Z) - SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted
Technical Debt [6.699060157800401]
自己承認技術的負債(Self-admitted Technical debt、SATD)とは、開発者が技術的ショートカットの存在を明確に認識し、文書化する技術的負債の一種である。
textitSATDAUGデータセットは、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張バージョンです。
論文 参考訳(メタデータ) (2024-03-12T14:33:53Z) - What Can Self-Admitted Technical Debt Tell Us About Security? A
Mixed-Methods Study [6.286506087629511]
自己充足型技術的負債(SATD)
潜在的に悪用可能な脆弱性や セキュリティ上の欠陥に関する 恐ろしい情報源と見なすことができます
本研究は、SATDのセキュリティへの影響を、技術と開発者中心の観点から検討する。
論文 参考訳(メタデータ) (2024-01-23T13:48:49Z) - Utilization of machine learning for the detection of self-admitted
vulnerabilities [0.0]
技術的負債(Technical debt)とは、短期的なニーズのために導入された、不公平なコードを記述するメタファーである。
開発者はそれを意識し、ソースコードのコメントで認めている。
論文 参考訳(メタデータ) (2023-09-27T12:38:12Z) - SF-FSDA: Source-Free Few-Shot Domain Adaptive Object Detection with
Efficient Labeled Data Factory [94.11898696478683]
ドメイン適応オブジェクト検出は、ラベル付きソースドメインから学んだ知識を活用し、ラベルなしのターゲットドメインのパフォーマンスを改善することを目的としています。
本研究では,SF-FSDA という名称のソースフリーおよび少数ショット条件下で,より実用的で困難な領域適応型オブジェクト検出問題を提案し,検討する。
論文 参考訳(メタデータ) (2023-06-07T12:34:55Z) - A Continual Deepfake Detection Benchmark: Dataset, Methods, and
Essentials [97.69553832500547]
本稿では, 既知の生成モデルと未知の生成モデルの両方から, 新たなディープフェイク集合に対する連続的なディープフェイク検出ベンチマーク(CDDB)を提案する。
本研究では,連続的なディープラーニング検出問題に対して,連続的な視覚認識で一般的に使用される多クラス漸進学習手法を適応するために,複数のアプローチを利用する。
論文 参考訳(メタデータ) (2022-05-11T13:07:19Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。