論文の概要: Less, but Stronger: On the Value of Strong Heuristics in Semi-supervised
Learning for Software Analytics
- arxiv url: http://arxiv.org/abs/2302.01997v1
- Date: Fri, 3 Feb 2023 20:59:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:51:12.363141
- Title: Less, but Stronger: On the Value of Strong Heuristics in Semi-supervised
Learning for Software Analytics
- Title(参考訳): ソフトウェア分析のための半教師あり学習における強いヒューリスティックスの価値について
- Authors: Huy Tu and Tim Menzies
- Abstract要約: 半教師付き学習者(SSL)は、少数の例から他のデータまでラベルを外挿することができる。
本稿では、そのような強みのアルゴリズムは、標準的で弱いSSLアルゴリズムよりも優れた性能を発揮すると論じる。
- 参考スコア(独自算出の注目度): 31.13621632964345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many domains, there are many examples and far fewer labels for those
examples; e.g. we may have access to millions of lines of source code, but
access to only a handful of warnings about that code. In those domains,
semi-supervised learners (SSL) can extrapolate labels from a small number of
examples to the rest of the data. Standard SSL algorithms use ``weak''
knowledge (i.e. those not based on specific SE knowledge) such as (e.g.)
co-train two learners and use good labels from one to train the other. Another
approach of SSL in software analytics is potentially use ``strong'' knowledge
that use SE knowledge. For example, an often-used heuristic in SE is that
unusually large artifacts contain undesired properties (e.g. more bugs). This
paper argues that such ``strong'' algorithms perform better than those
standard, weaker, SSL algorithms. We show this by learning models from labels
generated using weak SSL or our ``stronger'' FRUGAL algorithm. In four domains
(distinguishing security-related bug reports; mitigating bias in
decision-making; predicting issue close time; and (reducing false alarms in
static code warnings), FRUGAL required only 2.5% of the data to be labeled yet
out-performed standard semi-supervised learners that relied on (e.g.) some
domain-independent graph theory concepts. Hence, for future work, we strongly
recommend the use of strong heuristics for semi-supervised learning for SE
applications. To better support other researchers, our scripts and data are
on-line at https://github.com/HuyTu7/FRUGAL.
- Abstract(参考訳): 例えば、私たちは数百万行のソースコードにアクセスできますが、そのコードに関してほんの数行の警告しかアクセスできません。
これらのドメインでは、半教師付き学習者(SSL)は、少数のサンプルから他のデータへのラベルの外挿を行うことができる。
標準SSLアルゴリズムは、(例えば)2人の学習者を協調訓練し、一方から良いラベルを使って他方を訓練するなど、`weak'の知識(すなわち、特定のSE知識に基づいていないもの)を使用する。
ソフトウェア分析におけるSSLのもうひとつのアプローチは、SE知識を使用する‘strong’の知識を使用することだ。
例えば、SEにおけるしばしば使われるヒューリスティックは、異常に大きなアーティファクトが望ましくない性質(例えば、より多くのバグ)を含んでいることである。
本稿では,このような 'strong'' アルゴリズムは,標準的,弱いssl アルゴリズムよりも優れた性能を示す。
我々は、弱いSSLまたは我々の ``stronger'' の FRUGAL アルゴリズムを用いて生成されたラベルからモデルを学習することでこれを示す。
4つのドメイン(セキュリティ関連のバグレポートの識別、意思決定のバイアスの軽減、問題のクローズタイムの予測、および静的コード警告の誤報の低減)において、FRUGALは、いくつかのドメインに依存しないグラフ理論の概念に依存する、パフォーマンスが良くない標準的な半教師付き学習者に対してわずか2.5%のデータをラベル付けする必要があった。
したがって、将来の作業では、seアプリケーションのための半教師付き学習に強いヒューリスティックの使用を強く推奨します。
他の研究者を支援するため、我々のスクリプトとデータはhttps://github.com/HuyTu7/FRUGAL.comでオンライン公開されている。
関連論文リスト
- Active Self-Supervised Learning: A Few Low-Cost Relationships Are All
You Need [34.013568381942775]
Self-Supervised Learning (SSL)は、ラベルのないデータから転送可能な表現を学習する選択肢のソリューションとして登場した。
本研究では,この原理を正のアクティブラーニング(PAL)によって形式化し,一般化する。
まず、SSLを超えて理論的に基礎を成す学習フレームワークを公開し、類似性グラフに基づいて、採用するオラクルに応じて教師付きおよび半教師付き学習に取り組むように拡張する。
第二に、事前知識、例えばいくつかのラベルをトレーニングパイプラインの変更なしにSSL損失に組み込むための一貫したアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-03-27T14:44:39Z) - A Survey on Self-supervised Learning: Algorithms, Applications, and Future Trends [82.64268080902742]
自己教師付き学習(SSL)は、ラベル付きラベルを頼らずにラベル付きデータから識別的特徴を学習することを目的としている。
SSLは最近大きな注目を集め、多くの関連するアルゴリズムの開発に繋がった。
本稿では,アルゴリズム的側面,アプリケーション領域,3つの重要なトレンド,オープンな研究課題を含む,多様なSSL手法のレビューを行う。
論文 参考訳(メタデータ) (2023-01-13T14:41:05Z) - OpenLDN: Learning to Discover Novel Classes for Open-World
Semi-Supervised Learning [110.40285771431687]
半教師付き学習(SSL)は、教師付き学習のアノテーションボトルネックに対処する主要なアプローチの1つである。
最近のSSLメソッドは、ラベルなしデータの大規模なリポジトリを有効活用して、ラベル付きデータの小さなセットに依存しながら、パフォーマンスを向上させることができる。
この研究は、ペアワイズ類似度損失を利用して新しいクラスを発見するOpenLDNを導入している。
論文 参考訳(メタデータ) (2022-07-05T18:51:05Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - FRUGAL: Unlocking SSL for Software Analytics [17.63040340961143]
教師なし学習は、ラベルのないデータの中に隠されたパターンを学ぶための有望な方向である。
FRUGALは、単純な最適化方式に基づくチューニング半教師付き手法である。
論文 参考訳(メタデータ) (2021-08-22T21:15:27Z) - Analysis of label noise in graph-based semi-supervised learning [2.4366811507669124]
機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
多くの場合、私たちのデータのほとんどはラベル付けされていない。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
論文 参考訳(メタデータ) (2020-09-27T22:13:20Z) - Self-supervised Learning on Graphs: Deep Insights and New Direction [66.78374374440467]
自己教師付き学習(SSL)は、ラベルのないデータにドメイン固有のプレテキストタスクを作成することを目的としている。
グラフニューラルネットワーク(GNN)の形でのグラフ領域へのディープラーニングの一般化への関心が高まっている。
論文 参考訳(メタデータ) (2020-06-17T20:30:04Z) - NeuCrowd: Neural Sampling Network for Representation Learning with
Crowdsourced Labels [19.345894148534335]
本稿では,クラウドソースラベルから教師付き表現学習(SRL)を実現する統一フレームワークであるemphNeuCrowdを提案する。
提案手法は1つの実世界のデータセットと3つの実世界のデータセットで評価される。
論文 参考訳(メタデータ) (2020-03-21T13:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。