論文の概要: CppSATD: A Reusable Self-Admitted Technical Debt Dataset in C++
- arxiv url: http://arxiv.org/abs/2505.01136v1
- Date: Fri, 02 May 2025 09:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.983844
- Title: CppSATD: A Reusable Self-Admitted Technical Debt Dataset in C++
- Title(参考訳): CppSATD: C++における再利用可能な自己受け入れ技術的負債データセット
- Authors: Phuoc Pham, Murali Sridharan, Matteo Esposito, Valentina Lenarduzzi,
- Abstract要約: 自己申告技術的負債(SATD)は技術的負債(TD)のサブタイプである
SATDに関するこれまでの研究は、主にJavaプログラミング言語に焦点を当ててきた。
531,000以上の注釈付きコメントとそのソースコードコンテキストからなる専用C++ SATDデータセットであるCppSATDを紹介する。
- 参考スコア(独自算出の注目度): 4.114847619719728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In software development, technical debt (TD) refers to suboptimal implementation choices made by the developers to meet urgent deadlines and limited resources, posing challenges for future maintenance. Self-Admitted Technical Debt (SATD) is a sub-type of TD, representing specific TD instances ``openly admitted'' by the developers and often expressed through source code comments. Previous research on SATD has focused predominantly on the Java programming language, revealing a significant gap in cross-language SATD. Such a narrow focus limits the generalizability of existing findings as well as SATD detection techniques across multiple programming languages. Our work addresses such limitation by introducing CppSATD, a dedicated C++ SATD dataset, comprising over 531,000 annotated comments and their source code contexts. Our dataset can serve as a foundation for future studies that aim to develop SATD detection methods in C++, generalize the existing findings to other languages, or contribute novel insights to cross-language SATD research.
- Abstract(参考訳): ソフトウェア開発において、技術的負債(Technical debt、TD)とは、開発者が緊急の期限と限られたリソースを満たすための最適な実装選択であり、将来のメンテナンスの課題を提起するものである。
Self-Admitted Technical Debt (SATD)はTDのサブタイプであり、開発者によって「オープンに承認された」特定のTDインスタンスを表し、しばしばソースコードコメントを通じて表現される。
SATDに関するこれまでの研究は、主にJavaプログラミング言語に焦点を合わせており、言語間SATDの重大なギャップが明らかになっている。
このような狭い焦点は、既存の発見の一般化と、複数のプログラミング言語にわたるSATD検出技術を制限している。
我々の研究は、531,000以上の注釈付きコメントとそのソースコードコンテキストからなる専用のC++ SATDデータセットであるCppSATDを導入することで、このような制限に対処する。
我々のデータセットは、C++でSATD検出手法を開発し、既存の知見を他の言語に一般化したり、言語間SATD研究に新たな洞察をもたらしたりすることを目的とした将来の研究の基盤となることができる。
関連論文リスト
- Improving the detection of technical debt in Java source code with an enriched dataset [12.07607688189035]
技術的負債(Technical debt, TD)とは、開発者が問題に対して迅速かつ簡単なソリューションを選択すると、追加の作業とコストが発生すること。
近年の研究では、ソースコードに埋め込まれたコメントを分析することで、SATD(Self-Admitted Technical Debts)の検出に焦点が当てられている。
コードコメントによって識別された最初のTDデータセットを、関連するソースコードとともにキュレートしました。
論文 参考訳(メタデータ) (2024-11-08T10:12:33Z) - Deep Learning and Data Augmentation for Detecting Self-Admitted Technical Debt [6.004718679054704]
Self-Admitted Technical Debt (SATD)は、開発者がテキストアーティファクトを使用して、既存の実装が最適でない理由を説明する状況を指す。
SATD と BERT のバイナリ識別に BiLSTM アーキテクチャを用い,様々な SATD の分類を行った。
異なるアーティファクトから派生した様々なデータセットからSATDを識別・分類するための2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-21T09:22:16Z) - An Exploratory Study of the Relationship between SATD and Other Software Development Activities [13.026170714454071]
Self-Admitted Technical Debt (SATD)は、開発者が負債を思い出させるためにコードをドキュメント化する、特定のタイプのTechnical Debtである。
これまでの研究では、SATDの様々な側面を探求してきた。
本研究ではSATDの削除と追加とバグ修正,新機能の追加,テストなどの活動との関係について検討する。
論文 参考訳(メタデータ) (2024-04-02T13:45:42Z) - Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation [65.25839671641218]
そこで本研究では,潜在的な人的原因を考慮に入れた各種命令誤りを導入した新しいベンチマークデータセットを提案する。
我々のベンチマークで最先端のVLN-CE法を評価する場合、成功率において顕著な性能低下(最大-25%)が観測される。
また, エラー検出とローカライゼーションにおいて, 最適な性能を実現するための, クロスモーダルトランスフォーマーアーキテクチャに基づく効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T21:36:15Z) - SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted
Technical Debt [6.699060157800401]
自己承認技術的負債(Self-admitted Technical debt、SATD)とは、開発者が技術的ショートカットの存在を明確に認識し、文書化する技術的負債の一種である。
textitSATDAUGデータセットは、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張バージョンです。
論文 参考訳(メタデータ) (2024-03-12T14:33:53Z) - AdaCCD: Adaptive Semantic Contrasts Discovery Based Cross Lingual
Adaptation for Code Clone Detection [69.79627042058048]
AdaCCDは、その言語でアノテーションを使わずに、新しい言語のクローンコードを検出する新しい言語間適応手法である。
5つのプログラミング言語からなる多言語コードクローン検出ベンチマークを構築し,AdaCCDの言語間適応性を評価する。
論文 参考訳(メタデータ) (2023-11-13T12:20:48Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - PENTACET data -- 23 Million Contextual Code Comments and 250,000 SATD
comments [3.6095388702618414]
SATD(Self-Admitted Technical Debt)研究の多くは、SATD検出に「TODO」や「FIXME」のような明示的なSATD特徴を用いる。
この作業は、PENTACET(あるいは5Cデータセット)データを通じて、このギャップに対処する。
結果は2300万のコードコメント、各コメントのソースコードコンテキストの前と後、そしてSATDとラベル付けされた25万以上のコメントからなるデータセットである。
論文 参考訳(メタデータ) (2023-03-24T14:42:42Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。