論文の概要: DebtFree: Minimizing Labeling Cost in Self-Admitted Technical Debt
Identification using Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2201.10592v1
- Date: Tue, 25 Jan 2022 19:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 14:12:45.312258
- Title: DebtFree: Minimizing Labeling Cost in Self-Admitted Technical Debt
Identification using Semi-Supervised Learning
- Title(参考訳): debtfree:半教師付き学習を用いた自己管理型技術的負債識別におけるラベリングコストの最小化
- Authors: Huy Tu and Tim Menzies
- Abstract要約: DebtFreeはSATDを識別するための教師なし学習に基づく2モードフレームワークである。
10のソフトウェアプロジェクトに関する我々の実験は、両方のモデルが最先端の自動化および半自動化モデルよりも統計的に有意な改善をもたらすことを示している。
- 参考スコア(独自算出の注目度): 31.13621632964345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keeping track of and managing Self-Admitted Technical Debts (SATDs) is
important for maintaining a healthy software project. Current active-learning
SATD recognition tool involves manual inspection of 24% of the test comments on
average to reach 90% of the recall. Among all the test comments, about 5% are
SATDs. The human experts are then required to read almost a quintuple of the
SATD comments which indicates the inefficiency of the tool. Plus, human experts
are still prone to error: 95% of the false-positive labels from previous work
were actually true positives.
To solve the above problems, we propose DebtFree, a two-mode framework based
on unsupervised learning for identifying SATDs. In mode1, when the existing
training data is unlabeled, DebtFree starts with an unsupervised learner to
automatically pseudo-label the programming comments in the training data. In
contrast, in mode2 where labels are available with the corresponding training
data, DebtFree starts with a pre-processor that identifies the highly prone
SATDs from the test dataset. Then, our machine learning model is employed to
assist human experts in manually identifying the remaining SATDs. Our
experiments on 10 software projects show that both models yield a statistically
significant improvement in effectiveness over the state-of-the-art automated
and semi-automated models. Specifically, DebtFree can reduce the labeling
effort by 99% in mode1 (unlabeled training data), and up to 63% in mode2
(labeled training data) while improving the current active learner's F1
relatively to almost 100%.
- Abstract(参考訳): 健全なソフトウェアプロジェクトを維持するためには、SATD(Self-Admitted Technical Debts)の追跡と管理が重要です。
現在のアクティブラーニングsatd認識ツールは、平均でテストコメントの24%を手動で検査し、リコールの90%に達する。
すべてのテストコメントの中で、約5%がSATDである。
そして、人間の専門家は、ツールの非効率性を示すSATDコメントの4分の1を読まなければならない。
さらに、人間の専門家はまだエラーを起こしやすい。以前の研究から得られた偽陽性のラベルの95%は、実際には真陽性である。
この問題を解決するために,SATDを識別するための教師なし学習に基づく2モードフレームワークであるDebtFreeを提案する。
モード1では、既存のトレーニングデータがラベル付けされていない場合、DebtFreeは教師なしの学習者から始まり、トレーニングデータ内のプログラミングコメントを自動的に擬似ラベル付けする。
対照的に、ラベルが対応するトレーニングデータで利用可能である mode2 では、DebtFree はテストデータセットから非常に難しいSATDを識別するプリプロセッサから始まる。
次に、機械学習モデルを使用して、人間の専門家が残りのsatを手動で識別するのを支援する。
私たちの10のソフトウェアプロジェクトにおける実験は、両方のモデルが最先端の自動化モデルと半自動化モデルよりも統計的に有意な効率改善をもたらすことを示している。
具体的には、lovesfreeは、現在のアクティブ学習者のf1をほぼ100%改善しながら、mode1(ラベルなしトレーニングデータ)の99%、mode2(ラベル付きトレーニングデータ)の63%のラベリング労力を削減できる。
関連論文リスト
- Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - One-bit Supervision for Image Classification: Problem, Solution, and
Beyond [114.95815360508395]
本稿では,ラベルの少ない新しい学習環境である,画像分類のための1ビット監督について述べる。
多段階学習パラダイムを提案し、負ラベル抑圧を半教師付き半教師付き学習アルゴリズムに組み込む。
複数のベンチマークにおいて、提案手法の学習効率は、フルビットの半教師付き監視手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-26T07:39:00Z) - Towards Automatically Addressing Self-Admitted Technical Debt: How Far
Are We? [17.128428286986573]
本稿では,ニューラルベース生成モデルによって技術的負債を自動的に返済できる範囲を実験的に検討する。
595のオープンソースプロジェクトから5,039件の自己申告技術的負債(SATD)の削除日程を抽出することから始めます。
このデータセットを用いて、7つの異なる生成ディープラーニング(DL)モデル構成を実験する。
論文 参考訳(メタデータ) (2023-08-17T12:27:32Z) - When Less is More: On the Value of "Co-training" for Semi-Supervised
Software Defect Predictors [15.862838836160634]
本論文は714以上のプロジェクトに対して,55の半教師付き学習者に適用する。
半教師付き「協調学習法」は他の手法よりもかなりうまく機能することがわかった。
論文 参考訳(メタデータ) (2022-11-10T23:39:12Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Identifying Self-Admitted Technical Debt in Issue Tracking Systems using
Machine Learning [3.446864074238136]
技術的負債は短期的利益のために実装された準最適ソリューションのメタファーである。
Self-Admitted Technical Debtの特定に関する作業の多くは、ソースコードのコメントに重点を置いている。
本稿では,機械学習を用いた問題追跡システムにおけるSATDの自動識別手法の提案と最適化を行う。
論文 参考訳(メタデータ) (2022-02-04T15:15:13Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Don't Wait, Just Weight: Improving Unsupervised Representations by
Learning Goal-Driven Instance Weights [92.16372657233394]
自己教師付き学習技術は、役に立たないデータから有用な表現を学習することで、パフォーマンスを向上させることができる。
ベイジアンのインスタンスの重み付けを学習することで、下流の分類精度を向上させることができることを示す。
本研究では,STL-10 と Visual Decathlon の自己教師型回転予測タスクを用いて,BetaDataWeighter の評価を行った。
論文 参考訳(メタデータ) (2020-06-22T15:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。