論文の概要: When Less is More: On the Value of "Co-training" for Semi-Supervised
Software Defect Predictors
- arxiv url: http://arxiv.org/abs/2211.05920v2
- Date: Thu, 15 Feb 2024 18:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 19:01:45.797170
- Title: When Less is More: On the Value of "Co-training" for Semi-Supervised
Software Defect Predictors
- Title(参考訳): より少ない場合:半監督型ソフトウェア欠陥予測器の"コトレーニング"の価値について
- Authors: Suvodeep Majumder, Joymallya Chakraborty and Tim Menzies
- Abstract要約: 本論文は714以上のプロジェクトに対して,55の半教師付き学習者に適用する。
半教師付き「協調学習法」は他の手法よりもかなりうまく機能することがわかった。
- 参考スコア(独自算出の注目度): 15.862838836160634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling a module defective or non-defective is an expensive task. Hence,
there are often limits on how much-labeled data is available for training.
Semi-supervised classifiers use far fewer labels for training models. However,
there are numerous semi-supervised methods, including self-labeling,
co-training, maximal-margin, and graph-based methods, to name a few. Only a
handful of these methods have been tested in SE for (e.g.) predicting defects
and even there, those methods have been tested on just a handful of projects.
This paper applies a wide range of 55 semi-supervised learners to over 714
projects. We find that semi-supervised "co-training methods" work significantly
better than other approaches. Specifically, after labeling, just
2.5% of data, then make predictions that are competitive to those using 100%
of the data.
That said, co-training needs to be used cautiously since the specific choice
of co-training methods needs to be carefully selected based on a user's
specific goals. Also, we warn that a commonly-used co-training method
("multi-view"-- where different learners get different sets of columns) does
not improve predictions (while adding too much to the run time costs 11 hours
vs. 1.8 hours).
It is an open question, worthy of future work, to test if these reductions
can be seen in other areas of software analytics. To assist with exploring
other areas, all the codes used are available at
https://github.com/ai-se/Semi-Supervised.
- Abstract(参考訳): モジュールの欠陥や非欠陥のラベル付けは高価な作業です。
したがって、トレーニングに利用可能なラベル付きデータの量には、制限があることが多い。
半教師付き分類器はトレーニングモデルにはるかに少ないラベルを使用する。
しかし、自己ラベル付け、コトレーニング、最大マージン、グラフベースのメソッドなど、多くの半教師付き手法がある。
これらのメソッドは、(例えば)欠陥を予測するためにseでテストされ、たとえそこにあっても、ほんの一握りのプロジェクトでテストされています。
本稿では,55名の半教師による学習者を714以上のプロジェクトに適用する。
半教師付き「共同学習方法」は他の手法よりもかなりうまく機能することがわかった。
具体的には、ラベル付け後のデータはわずか2.5%で、100%のデータを使用するものと競合する予測を行う。
とはいえ、コトレーニングメソッドの特定の選択は、ユーザの特定の目標に基づいて慎重に選択する必要があるため、コトレーニングを慎重に使用する必要がある。
また、一般的なコトレーニング手法である「マルチビュー」では、異なる学習者が異なる列の集合を取得できるが、予測は改善されない(実行時間に過大な加算を加えるのは11時間対1.8時間)。
これらの削減がソフトウェア分析の他の領域で見られるかどうかをテストするのは、今後の作業にふさわしいオープン質問である。
他の領域の探索を支援するために、使用されるすべてのコードはhttps://github.com/ai-se/Semi-Supervised.comで入手できる。
関連論文リスト
- Probably Approximately Precision and Recall Learning [62.912015491907994]
精度とリコールは機械学習の基本的な指標である。
一方的なフィードバック – トレーニング中にのみ肯定的な例が観察される – は,多くの実践的な問題に固有のものだ。
PAC学習フレームワークでは,各仮説をグラフで表現し,エッジは肯定的な相互作用を示す。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Learning with Proper Partial Labels [87.65718705642819]
部分ラベル学習は、不正確なラベルを持つ弱い教師付き学習の一種である。
この適切な部分ラベル学習フレームワークには,従来の部分ラベル学習設定が数多く含まれていることを示す。
次に、分類リスクの統一的非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-12-23T01:37:03Z) - FRUGAL: Unlocking SSL for Software Analytics [17.63040340961143]
教師なし学習は、ラベルのないデータの中に隠されたパターンを学ぶための有望な方向である。
FRUGALは、単純な最適化方式に基づくチューニング半教師付き手法である。
論文 参考訳(メタデータ) (2021-08-22T21:15:27Z) - OpenCoS: Contrastive Semi-supervised Learning for Handling Open-set
Unlabeled Data [65.19205979542305]
ラベル付けされていないデータには、実際にはクラス外のサンプルが含まれる。
OpenCoSは、このリアルな半教師付き学習シナリオを扱う方法である。
論文 参考訳(メタデータ) (2021-06-29T06:10:05Z) - Towards optimally abstaining from prediction [22.937799541125607]
機械学習のあらゆる領域に共通する課題は、トレーニングデータがテストデータのように分散されていないことだ。
一定のコストで予測を控えるモデルを考える。
我々は、Goldwasser、Kalais、Montasser(2020年)の最近の禁断アルゴリズムに基づいて、トランスダクティブバイナリ分類を行った。
論文 参考訳(メタデータ) (2021-05-28T21:44:48Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Semi-Supervised Learning for Sparsely-Labeled Sequential Data:
Application to Healthcare Video Processing [0.8312466807725921]
逐次データにおける事象検出性能を向上させるための半教師付き機械学習学習戦略を提案する。
本手法では, 事象検出モデルの訓練に, 事象の終了時刻の雑音予測を用いる。
我々は,MNISTの平均精度が12ポイント,CIFARが3.5ポイント,保守的評価が12ポイント向上していることを示す。
論文 参考訳(メタデータ) (2020-11-28T09:54:44Z) - Don't Wait, Just Weight: Improving Unsupervised Representations by
Learning Goal-Driven Instance Weights [92.16372657233394]
自己教師付き学習技術は、役に立たないデータから有用な表現を学習することで、パフォーマンスを向上させることができる。
ベイジアンのインスタンスの重み付けを学習することで、下流の分類精度を向上させることができることを示す。
本研究では,STL-10 と Visual Decathlon の自己教師型回転予測タスクを用いて,BetaDataWeighter の評価を行った。
論文 参考訳(メタデータ) (2020-06-22T15:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。