Fugu-MT 論文翻訳(概要): SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted Technical Debt

論文の概要: SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted Technical Debt

arxiv url: http://arxiv.org/abs/2403.07690v1
Date: Tue, 12 Mar 2024 14:33:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 21:13:15.581954
Title: SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted Technical Debt
Title（参考訳）: SATDAUG -- 自己申告技術的負債を検出するためのバランスと拡張されたデータセット
Authors: Edi Sutoyo, Andrea Capiluppi
Abstract要約: 自己承認技術的負債(Self-admitted Technical debt、SATD)とは、開発者が技術的ショートカットの存在を明確に認識し、文書化する技術的負債の一種である。 textitSATDAUGデータセットは、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張バージョンです。
参考スコア（独自算出の注目度）: 6.699060157800401
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-admitted technical debt (SATD) refers to a form of technical debt in which developers explicitly acknowledge and document the existence of technical shortcuts, workarounds, or temporary solutions within the codebase. Over recent years, researchers have manually labeled datasets derived from various software development artifacts: source code comments, messages from the issue tracker and pull request sections, and commit messages. These datasets are designed for training, evaluation, performance validation, and improvement of machine learning and deep learning models to accurately identify SATD instances. However, class imbalance poses a serious challenge across all the existing datasets, particularly when researchers are interested in categorizing the specific types of SATD. In order to address the scarcity of labeled data for SATD \textit{identification} (i.e., whether an instance is SATD or not) and \textit{categorization} (i.e., which type of SATD is being classified) in existing datasets, we share the \textit{SATDAUG} dataset, an augmented version of existing SATD datasets, including source code comments, issue tracker, pull requests, and commit messages. These augmented datasets have been balanced in relation to the available artifacts and provide a much richer source of labeled data for training machine learning or deep learning models.
Abstract（参考訳）: SATD(Self-admitted Technical debt)とは、開発者がコードベース内の技術的ショートカットや回避策、一時的なソリューションの存在を明確に認識し、文書化する技術的負債の形式である。近年、研究者はソースコードコメント、イシュートラッカからのメッセージ、プルリクエストセクション、コミットメッセージなど、様々なソフトウェア開発成果物のデータセットを手動でラベル付けしてきた。これらのデータセットは、satdインスタンスを正確に識別するためのトレーニング、評価、パフォーマンス検証、マシンラーニングおよびディープラーニングモデルの改善のために設計されている。しかし、特に研究者が特定のSATDの分類に興味がある場合、クラス不均衡は既存のすべてのデータセットに深刻な課題をもたらす。既存のデータセットにおけるSATD \textit{identification} (インスタンスがSATDであるかどうか) と \textit{categorization} (SATDのどのタイプが分類されているか) のラベル付きデータの不足に対処するため、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張版である \textit{SATDAUG} データセットを共有します。これらのデータセットは利用可能なアーティファクトとバランスを取り、マシンラーニングやディープラーニングモデルをトレーニングするためのラベル付きデータのよりリッチなソースを提供する。

関連論文リスト

Understanding Self-Admitted Technical Debt in Test Code: An Empirical Study [2.1295493440485513]
開発者は、コードコメントで技術的負債を明示的に文書化しており、Set-Admitted Technical Debt (SATD)と呼ばれる。本研究の目的は,テストコードにおけるSATDの性質を明らかにすることである。また,テストコード中のSATDタイプを包括的に分類し,SATDコメントを自動的に分類する機械学習モデルを開発した。
論文参考訳（メタデータ） (2025-10-25T11:00:48Z)
Descriptor: C++ Self-Admitted Technical Debt Dataset (CppSATD) [4.114847619719728]
自己申告技術的負債(SATD)は技術的負債(TD)のサブタイプである SATDに関するこれまでの研究は、主にJavaプログラミング言語に焦点を当ててきた。 531,000以上の注釈付きコメントとそのソースコードコンテキストからなる専用C++ SATDデータセットであるCppSATDを紹介する。
論文参考訳（メタデータ） (2025-05-02T09:25:41Z)
Improving the detection of technical debt in Java source code with an enriched dataset [12.07607688189035]
技術的負債(Technical debt, TD)とは、開発者が問題に対して迅速かつ簡単なソリューションを選択すると、追加の作業とコストが発生すること。近年の研究では、ソースコードに埋め込まれたコメントを分析することで、SATD(Self-Admitted Technical Debts)の検出に焦点が当てられている。コードコメントによって識別された最初のTDデータセットを、関連するソースコードとともにキュレートしました。
論文参考訳（メタデータ） (2024-11-08T10:12:33Z)
Deep Learning and Data Augmentation for Detecting Self-Admitted Technical Debt [6.004718679054704]
Self-Admitted Technical Debt (SATD)は、開発者がテキストアーティファクトを使用して、既存の実装が最適でない理由を説明する状況を指す。 SATD と BERT のバイナリ識別に BiLSTM アーキテクチャを用い,様々な SATD の分類を行った。異なるアーティファクトから派生した様々なデータセットからSATDを識別・分類するための2段階のアプローチを提案する。
論文参考訳（メタデータ） (2024-10-21T09:22:16Z)
A Taxonomy of Self-Admitted Technical Debt in Deep Learning Systems [13.90991624629898]
本稿では,ディープラーニングシステムにおける自己受け入れ技術的負債(SATD)の存在を実証的に分析する。オープンコーディングにより, DL特異的SATDの分類を導出し, 7つのカテゴリと41の葉を特徴とした。
論文参考訳（メタデータ） (2024-09-18T09:21:10Z)
Towards Automatically Addressing Self-Admitted Technical Debt: How Far Are We? [17.128428286986573]
本稿では,ニューラルベース生成モデルによって技術的負債を自動的に返済できる範囲を実験的に検討する。 595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。
論文参考訳（メタデータ） (2023-08-17T12:27:32Z)
DataFinder: Scientific Dataset Recommendation from Natural Language Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文参考訳（メタデータ） (2023-05-26T05:22:36Z)
Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文参考訳（メタデータ） (2022-07-25T01:43:19Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Identifying Self-Admitted Technical Debt in Issue Tracking Systems using Machine Learning [3.446864074238136]
技術的負債は短期的利益のために実装された準最適ソリューションのメタファーである。 Self-Admitted Technical Debtの特定に関する作業の多くは、ソースコードのコメントに重点を置いている。本稿では,機械学習を用いた問題追跡システムにおけるSATDの自動識別手法の提案と最適化を行う。
論文参考訳（メタデータ） (2022-02-04T15:15:13Z)
The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-18T20:13:51Z)
Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文参考訳（メタデータ） (2020-10-03T03:18:52Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)
DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2019-12-27T02:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。