論文の概要: SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted
Technical Debt
- arxiv url: http://arxiv.org/abs/2403.07690v1
- Date: Tue, 12 Mar 2024 14:33:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:13:15.581954
- Title: SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted
Technical Debt
- Title(参考訳): SATDAUG -- 自己申告技術的負債を検出するためのバランスと拡張されたデータセット
- Authors: Edi Sutoyo, Andrea Capiluppi
- Abstract要約: 自己承認技術的負債(Self-admitted Technical debt、SATD)とは、開発者が技術的ショートカットの存在を明確に認識し、文書化する技術的負債の一種である。
textitSATDAUGデータセットは、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張バージョンです。
- 参考スコア(独自算出の注目度): 6.699060157800401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-admitted technical debt (SATD) refers to a form of technical debt in
which developers explicitly acknowledge and document the existence of technical
shortcuts, workarounds, or temporary solutions within the codebase. Over recent
years, researchers have manually labeled datasets derived from various software
development artifacts: source code comments, messages from the issue tracker
and pull request sections, and commit messages. These datasets are designed for
training, evaluation, performance validation, and improvement of machine
learning and deep learning models to accurately identify SATD instances.
However, class imbalance poses a serious challenge across all the existing
datasets, particularly when researchers are interested in categorizing the
specific types of SATD. In order to address the scarcity of labeled data for
SATD \textit{identification} (i.e., whether an instance is SATD or not) and
\textit{categorization} (i.e., which type of SATD is being classified) in
existing datasets, we share the \textit{SATDAUG} dataset, an augmented version
of existing SATD datasets, including source code comments, issue tracker, pull
requests, and commit messages. These augmented datasets have been balanced in
relation to the available artifacts and provide a much richer source of labeled
data for training machine learning or deep learning models.
- Abstract(参考訳): SATD(Self-admitted Technical debt)とは、開発者がコードベース内の技術的ショートカットや回避策、一時的なソリューションの存在を明確に認識し、文書化する技術的負債の形式である。
近年、研究者はソースコードコメント、イシュートラッカからのメッセージ、プルリクエストセクション、コミットメッセージなど、様々なソフトウェア開発成果物のデータセットを手動でラベル付けしてきた。
これらのデータセットは、satdインスタンスを正確に識別するためのトレーニング、評価、パフォーマンス検証、マシンラーニングおよびディープラーニングモデルの改善のために設計されている。
しかし、特に研究者が特定のSATDの分類に興味がある場合、クラス不均衡は既存のすべてのデータセットに深刻な課題をもたらす。
既存のデータセットにおけるSATD \textit{identification} (インスタンスがSATDであるかどうか) と \textit{categorization} (SATDのどのタイプが分類されているか) のラベル付きデータの不足に対処するため、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張版である \textit{SATDAUG} データセットを共有します。
これらのデータセットは利用可能なアーティファクトとバランスを取り、マシンラーニングやディープラーニングモデルをトレーニングするためのラベル付きデータのよりリッチなソースを提供する。
関連論文リスト
- Towards Automatically Addressing Self-Admitted Technical Debt: How Far
Are We? [17.128428286986573]
本稿では,ニューラルベース生成モデルによって技術的負債を自動的に返済できる範囲を実験的に検討する。
595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。
このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。
論文 参考訳(メタデータ) (2023-08-17T12:27:32Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Automatically Identifying Relations Between Self-Admitted Technical Debt
Across Different Sources [3.446864074238136]
Self-Admitted Technical DebtまたはSATDは、ソースコードコメント、コミットメッセージ、イシュートラッキングシステム、プルリクエストなど、さまざまなソースで見ることができる。
従来の研究は、SATDアイテム間の関係を異なるソースで確立してきた。
異なるソース間でSATD関係を自動的に識別するためのアプローチを提案し,評価する。
論文 参考訳(メタデータ) (2023-03-13T13:03:55Z) - W2SAT: Learning to generate SAT instances from Weighted Literal
Incidence Graphs [13.173307471333619]
W2SATは、現実世界/産業インスタンスから固有の構造と特性を学ぶことによってSAT式を生成するフレームワークである。
Weighted Literal Incidence Graph (WLIG)と呼ばれる新しいSAT表現を導入する。
WLIGからSAT問題への復号化は、新しい丘登り最適化法で重なり合う斜角を見つけることをモデル化する。
論文 参考訳(メタデータ) (2023-02-01T06:30:41Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Automatic Identification of Self-Admitted Technical Debt from Four
Different Sources [3.446864074238136]
技術的負債とは、ソフトウェアシステムの長期的な保守性と進化性を犠牲にして、短期的な目標を達成するためにショートカットを取ることを指す。
これまでの作業は、ソースコードコメントとイシュートラッカからSATDを識別することに集中していた。
ソースコードコメント,コミットメッセージ,プルリクエスト,イシュートラッキングシステムという4つのソースを統合したSATDの自動識別手法を提案する。
論文 参考訳(メタデータ) (2022-02-04T20:59:25Z) - Identifying Self-Admitted Technical Debt in Issue Tracking Systems using
Machine Learning [3.446864074238136]
技術的負債は短期的利益のために実装された準最適ソリューションのメタファーである。
Self-Admitted Technical Debtの特定に関する作業の多くは、ソースコードのコメントに重点を置いている。
本稿では,機械学習を用いた問題追跡システムにおけるSATDの自動識別手法の提案と最適化を行う。
論文 参考訳(メタデータ) (2022-02-04T15:15:13Z) - The Problem of Zombie Datasets:A Framework For Deprecating Datasets [55.878249096379804]
我々は、ImageNet、8000 Million Tiny Images、MS-Celeb-1M、Duke MTMC、Brainwash、HRT Transgenderなど、いくつかの著名なデータセットの公開後処理について検討する。
本稿では,リスクの考慮,影響の緩和,アピール機構,タイムライン,非推奨プロトコル,公開チェックなどを含むデータセットの非推奨化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-18T20:13:51Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。