論文の概要: Towards Automatically Addressing Self-Admitted Technical Debt: How Far
Are We?
- arxiv url: http://arxiv.org/abs/2308.08943v1
- Date: Thu, 17 Aug 2023 12:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 16:56:56.120866
- Title: Towards Automatically Addressing Self-Admitted Technical Debt: How Far
Are We?
- Title(参考訳): 自己申告型技術的負債に自動的に対処する - どこまであるのか?
- Authors: Antonio Mastropaolo, Massimiliano Di Penta, Gabriele Bavota
- Abstract要約: 本稿では,ニューラルベース生成モデルによって技術的負債を自動的に返済できる範囲を実験的に検討する。
595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。
このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。
- 参考スコア(独自算出の注目度): 17.128428286986573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Upon evolving their software, organizations and individual developers have to
spend a substantial effort to pay back technical debt, i.e., the fact that
software is released in a shape not as good as it should be, e.g., in terms of
functionality, reliability, or maintainability. This paper empirically
investigates the extent to which technical debt can be automatically paid back
by neural-based generative models, and in particular models exploiting
different strategies for pre-training and fine-tuning. We start by extracting a
dateset of 5,039 Self-Admitted Technical Debt (SATD) removals from 595
open-source projects. SATD refers to technical debt instances documented (e.g.,
via code comments) by developers. We use this dataset to experiment with seven
different generative deep learning (DL) model configurations. Specifically, we
compare transformers pre-trained and fine-tuned with different combinations of
training objectives, including the fixing of generic code changes, SATD
removals, and SATD-comment prompt tuning. Also, we investigate the
applicability in this context of a recently-available Large Language Model
(LLM)-based chat bot. Results of our study indicate that the automated
repayment of SATD is a challenging task, with the best model we experimented
with able to automatically fix ~2% to 8% of test instances, depending on the
number of attempts it is allowed to make. Given the limited size of the
fine-tuning dataset (~5k instances), the model's pre-training plays a
fundamental role in boosting performance. Also, the ability to remove SATD
steadily drops if the comment documenting the SATD is not provided as input to
the model. Finally, we found general-purpose LLMs to not be a competitive
approach for addressing SATD.
- Abstract(参考訳): ソフトウェアを進化させるとき、組織や個々の開発者は技術的負債を返済するためにかなりの労力を費やさなければなりません。
本稿では,ニューラルベース生成モデルによる技術的負債の自動返済の程度を実験的に検討し,特に事前学習と微調整のための異なる戦略を利用するモデルについて述べる。
595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。
SATDは開発者によって文書化された技術的負債(例えば、コードコメント)のインスタンスを指す。
このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。
具体的には、汎用コード変更の修正、SATD削除、SATD-commentプロンプトチューニングなど、トレーニング目的の異なる組み合わせで事前訓練および微調整を行ったトランスフォーマーを比較する。
また,最近利用可能になったLarge Language Model (LLM)ベースのチャットボットの適用性についても検討した。
その結果、SATDの自動返済は難しい作業であり、テストインスタンスの約2%から8%を自動的に修正できる最良のモデルが、テストインスタンスの試行数によって異なります。
微調整データセット(約5kインスタンス)のサイズが限られているため、モデルの事前トレーニングはパフォーマンス向上に基本的な役割を果たす。
また、SATDを文書化するコメントがモデルへの入力として提供されない場合、SATDを削除する機能は着実に低下する。
最後に,SATD の汎用 LLM は SATD に対する競合的アプローチではないことを発見した。
関連論文リスト
- A Taxonomy of Self-Admitted Technical Debt in Deep Learning Systems [13.90991624629898]
本稿では,ディープラーニングシステムにおける自己受け入れ技術的負債(SATD)の存在を実証的に分析する。
オープンコーディングにより, DL特異的SATDの分類を導出し, 7つのカテゴリと41の葉を特徴とした。
論文 参考訳(メタデータ) (2024-09-18T09:21:10Z) - SATDAUG -- A Balanced and Augmented Dataset for Detecting Self-Admitted
Technical Debt [6.699060157800401]
自己承認技術的負債(Self-admitted Technical debt、SATD)とは、開発者が技術的ショートカットの存在を明確に認識し、文書化する技術的負債の一種である。
textitSATDAUGデータセットは、ソースコードコメント、イシュートラッカ、プルリクエスト、コミットメッセージを含む既存のSATDデータセットの拡張バージョンです。
論文 参考訳(メタデータ) (2024-03-12T14:33:53Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Automatically Estimating the Effort Required to Repay Self-Admitted
Technical Debt [1.8208834479445897]
Self-Admitted Technical Debt (SATD)は、ソフトウェアアーティファクト内の開発者が文書化する技術的負債の特定の形式である。
包括的データセットを用いてSATD返済作業を自動的に推定する新しい手法を提案する。
本研究の結果から,SATD はコード/設計,要件,テスト負債といった様々なレベルの返済作業を必要とし,非SATD 項目と比較して高い労力を要することが明らかとなった。
論文 参考訳(メタデータ) (2023-09-12T07:40:18Z) - How Far Can Camels Go? Exploring the State of Instruction Tuning on Open
Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。
我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。
それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文 参考訳(メタデータ) (2023-06-07T19:59:23Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Identifying Self-Admitted Technical Debt in Issue Tracking Systems using
Machine Learning [3.446864074238136]
技術的負債は短期的利益のために実装された準最適ソリューションのメタファーである。
Self-Admitted Technical Debtの特定に関する作業の多くは、ソースコードのコメントに重点を置いている。
本稿では,機械学習を用いた問題追跡システムにおけるSATDの自動識別手法の提案と最適化を行う。
論文 参考訳(メタデータ) (2022-02-04T15:15:13Z) - DebtFree: Minimizing Labeling Cost in Self-Admitted Technical Debt
Identification using Semi-Supervised Learning [31.13621632964345]
DebtFreeはSATDを識別するための教師なし学習に基づく2モードフレームワークである。
10のソフトウェアプロジェクトに関する我々の実験は、両方のモデルが最先端の自動化および半自動化モデルよりも統計的に有意な改善をもたらすことを示している。
論文 参考訳(メタデータ) (2022-01-25T19:21:24Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。