論文の概要: SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted
Technical Debt
- arxiv url: http://arxiv.org/abs/2403.07690v1
- Date: Tue, 12 Mar 2024 14:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:13:15.581954
- Title: SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted
Technical Debt
- Title(参考訳): SATDAUG -- 自己申告技術的負債を検出するためのバランスと拡張されたデータセット
- Authors: Edi Sutoyo, Andrea Capiluppi
- Abstract要約: 自己承認技術的負債(Self-admitted Technical debt、SATD)とは、開発者が技術的ショートカットの存在を明確に認識し、文書化する技術的負債の一種である。
textitSATDAUGデータセットは、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張バージョンです。
- 参考スコア(独自算出の注目度): 6.699060157800401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-admitted technical debt (SATD) refers to a form of technical debt in
which developers explicitly acknowledge and document the existence of technical
shortcuts, workarounds, or temporary solutions within the codebase. Over recent
years, researchers have manually labeled datasets derived from various software
development artifacts: source code comments, messages from the issue tracker
and pull request sections, and commit messages. These datasets are designed for
training, evaluation, performance validation, and improvement of machine
learning and deep learning models to accurately identify SATD instances.
However, class imbalance poses a serious challenge across all the existing
datasets, particularly when researchers are interested in categorizing the
specific types of SATD. In order to address the scarcity of labeled data for
SATD \textit{identification} (i.e., whether an instance is SATD or not) and
\textit{categorization} (i.e., which type of SATD is being classified) in
existing datasets, we share the \textit{SATDAUG} dataset, an augmented version
of existing SATD datasets, including source code comments, issue tracker, pull
requests, and commit messages. These augmented datasets have been balanced in
relation to the available artifacts and provide a much richer source of labeled
data for training machine learning or deep learning models.
- Abstract(参考訳): SATD(Self-admitted Technical debt)とは、開発者がコードベース内の技術的ショートカットや回避策、一時的なソリューションの存在を明確に認識し、文書化する技術的負債の形式である。
近年、研究者はソースコードコメント、イシュートラッカからのメッセージ、プルリクエストセクション、コミットメッセージなど、様々なソフトウェア開発成果物のデータセットを手動でラベル付けしてきた。
これらのデータセットは、satdインスタンスを正確に識別するためのトレーニング、評価、パフォーマンス検証、マシンラーニングおよびディープラーニングモデルの改善のために設計されている。
しかし、特に研究者が特定のSATDの分類に興味がある場合、クラス不均衡は既存のすべてのデータセットに深刻な課題をもたらす。
既存のデータセットにおけるSATD \textit{identification} (インスタンスがSATDであるかどうか) と \textit{categorization} (SATDのどのタイプが分類されているか) のラベル付きデータの不足に対処するため、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張版である \textit{SATDAUG} データセットを共有します。
これらのデータセットは利用可能なアーティファクトとバランスを取り、マシンラーニングやディープラーニングモデルをトレーニングするためのラベル付きデータのよりリッチなソースを提供する。
関連論文リスト
- Improving the detection of technical debt in Java source code with an enriched dataset [12.07607688189035]
技術的負債(Technical debt, TD)とは、開発者が問題に対して迅速かつ簡単なソリューションを選択すると、追加の作業とコストが発生すること。
近年の研究では、ソースコードに埋め込まれたコメントを分析することで、SATD(Self-Admitted Technical Debts)の検出に焦点が当てられている。
コードコメントによって識別された最初のTDデータセットを、関連するソースコードとともにキュレートしました。
論文 参考訳(メタデータ) (2024-11-08T10:12:33Z) - Deep Learning and Data Augmentation for Detecting Self-Admitted Technical Debt [6.004718679054704]
Self-Admitted Technical Debt (SATD)は、開発者がテキストアーティファクトを使用して、既存の実装が最適でない理由を説明する状況を指す。
SATD と BERT のバイナリ識別に BiLSTM アーキテクチャを用い,様々な SATD の分類を行った。
異なるアーティファクトから派生した様々なデータセットからSATDを識別・分類するための2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-21T09:22:16Z) - A Taxonomy of Self-Admitted Technical Debt in Deep Learning Systems [13.90991624629898]
本稿では,ディープラーニングシステムにおける自己受け入れ技術的負債(SATD)の存在を実証的に分析する。
オープンコーディングにより, DL特異的SATDの分類を導出し, 7つのカテゴリと41の葉を特徴とした。
論文 参考訳(メタデータ) (2024-09-18T09:21:10Z) - Towards Automatically Addressing Self-Admitted Technical Debt: How Far
Are We? [17.128428286986573]
本稿では,ニューラルベース生成モデルによって技術的負債を自動的に返済できる範囲を実験的に検討する。
595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。
このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。
論文 参考訳(メタデータ) (2023-08-17T12:27:32Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Identifying Self-Admitted Technical Debt in Issue Tracking Systems using
Machine Learning [3.446864074238136]
技術的負債は短期的利益のために実装された準最適ソリューションのメタファーである。
Self-Admitted Technical Debtの特定に関する作業の多くは、ソースコードのコメントに重点を置いている。
本稿では,機械学習を用いた問題追跡システムにおけるSATDの自動識別手法の提案と最適化を行う。
論文 参考訳(メタデータ) (2022-02-04T15:15:13Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。