論文の概要: FRUGAL: Unlocking SSL for Software Analytics
- arxiv url: http://arxiv.org/abs/2108.09847v1
- Date: Sun, 22 Aug 2021 21:15:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:26:04.689678
- Title: FRUGAL: Unlocking SSL for Software Analytics
- Title(参考訳): FRUGAL:ソフトウェア分析のためのSSLのアンロック
- Authors: Huy Tu and Tim Menzies
- Abstract要約: 教師なし学習は、ラベルのないデータの中に隠されたパターンを学ぶための有望な方向である。
FRUGALは、単純な最適化方式に基づくチューニング半教師付き手法である。
- 参考スコア(独自算出の注目度): 17.63040340961143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard software analytics often involves having a large amount of data with
labels in order to commission models with acceptable performance. However,
prior work has shown that such requirements can be expensive, taking several
weeks to label thousands of commits, and not always available when traversing
new research problems and domains. Unsupervised Learning is a promising
direction to learn hidden patterns within unlabelled data, which has only been
extensively studied in defect prediction. Nevertheless, unsupervised learning
can be ineffective by itself and has not been explored in other domains (e.g.,
static analysis and issue close time).
Motivated by this literature gap and technical limitations, we present
FRUGAL, a tuned semi-supervised method that builds on a simple optimization
scheme that does not require sophisticated (e.g., deep learners) and expensive
(e.g., 100% manually labelled data) methods. FRUGAL optimizes the unsupervised
learner's configurations (via a simple grid search) while validating our design
decision of labelling just 2.5% of the data before prediction.
As shown by the experiments of this paper FRUGAL outperforms the
state-of-the-art adoptable static code warning recognizer and issue closed time
predictor, while reducing the cost of labelling by a factor of 40 (from 100% to
2.5%). Hence we assert that FRUGAL can save considerable effort in data
labelling especially in validating prior work or researching new problems.
Based on this work, we suggest that proponents of complex and expensive
methods should always baseline such methods against simpler and cheaper
alternatives. For instance, a semi-supervised learner like FRUGAL can serve as
a baseline to the state-of-the-art software analytics.
- Abstract(参考訳): 標準ソフトウェア分析は、しばしば許容可能なパフォーマンスでモデルを割り当てるために、ラベルで大量のデータを取得することを伴う。
しかし、以前の作業では、このような要件は高価であり、数千のコミットをラベル付けるのに数週間かかり、新しい研究問題やドメインを横断するときに常に利用できるとは限らない。
教師なし学習は、欠陥予測において広範に研究されているデータの中で隠れたパターンを学習するための有望な方向である。
それにもかかわらず、教師なし学習はそれ自体では効果がなく、他の領域(例えば静的解析や問題クローズタイム)では探索されていない。
この文学的ギャップと技術的な限界に動機づけられたfrugalは、洗練された(ディープラーナーなど)や高価な(100%手動ラベル付きデータなど)メソッドを必要としない単純な最適化スキーム上に構築された、チューニングされた半教師付きメソッドである。
FRUGALは、教師なし学習者の構成を(単純なグリッドサーチによって)最適化し、予測前のデータの2.5%しかラベル付けしない設計決定を検証します。
この論文の実験で示されているように、FRUGALは最先端の静的コード警告認識器とイシュークローズドタイム予測器より優れており、ラベル付けのコストは40(100%から2.5%)削減されている。
したがって、FRUGALは、特に先行作業の検証や新しい問題の研究において、データラベリングに多大な労力を費やすことができると断言する。
この研究に基づいて, 複雑で高価な手法の支持者は, より単純で安価な代替案に対して, 常にその手法をベースラインとすべきである。
例えば、FRUGALのような半教師付き学習者は、最先端のソフトウェア分析のベースラインとして機能することができる。
関連論文リスト
- Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Less, but Stronger: On the Value of Strong Heuristics in Semi-supervised
Learning for Software Analytics [31.13621632964345]
半教師付き学習者(SSL)は、少数の例から他のデータまでラベルを外挿することができる。
本稿では、そのような強みのアルゴリズムは、標準的で弱いSSLアルゴリズムよりも優れた性能を発揮すると論じる。
論文 参考訳(メタデータ) (2023-02-03T20:59:09Z) - When Less is More: On the Value of "Co-training" for Semi-Supervised
Software Defect Predictors [15.862838836160634]
本論文は714以上のプロジェクトに対して,55の半教師付き学習者に適用する。
半教師付き「協調学習法」は他の手法よりもかなりうまく機能することがわかった。
論文 参考訳(メタデータ) (2022-11-10T23:39:12Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Interpolation-based Contrastive Learning for Few-Label Semi-Supervised
Learning [43.51182049644767]
半教師付き学習(SSL)は,ラベルが限定された強力なモデルを構築する上で,有効な手法であることが長年証明されてきた。
摂動サンプルを元のものと類似した予測を強制する正規化に基づく手法が注目されている。
本稿では,学習ネットワークの埋め込みを誘導し,サンプル間の線形変化を誘導する新たな対照的な損失を提案する。
論文 参考訳(メタデータ) (2022-02-24T06:00:05Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Self-Supervised Noisy Label Learning for Source-Free Unsupervised Domain
Adaptation [87.60688582088194]
新規な自己監督雑音ラベル学習法を提案する。
本手法は最新の結果を容易に達成でき、他の手法を非常に大きなマージンで超えることができる。
論文 参考訳(メタデータ) (2021-02-23T10:51:45Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。