論文の概要: Unsupervised Instance Selection with Low-Label, Supervised Learning for
Outlier Detection
- arxiv url: http://arxiv.org/abs/2104.12837v1
- Date: Mon, 26 Apr 2021 19:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 01:22:12.663151
- Title: Unsupervised Instance Selection with Low-Label, Supervised Learning for
Outlier Detection
- Title(参考訳): 異常検出のための低ラベル教師付き学習による教師なしインスタンス選択
- Authors: Trent J. Bradberry, Christopher H. Hase, LeAnna Kent, Joel A.
G\'ongora
- Abstract要約: Active Learningは、最も不確実なクラス割り当てを持つインスタンスのラベルに対して、人間のアノテーションーをクエリする技術である。
その利点にもかかわらず、ALはクラス不均衡なデータセットに難航し、非効率なラベリングプロセスをもたらす。
我々はunsupervised instance selection (UNISEL) 法とRandom Forest (RF) 分類器について検討した。
その結果,UNISELの後続のRFはRFとALと同等に動作し,UNISELとALの組み合わせは優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The laborious process of labeling data often bottlenecks projects that aim to
leverage the power of supervised machine learning. Active Learning (AL) has
been established as a technique to ameliorate this condition through an
iterative framework that queries a human annotator for labels of instances with
the most uncertain class assignment. Via this mechanism, AL produces a binary
classifier trained on less labeled data but with little, if any, loss in
predictive performance. Despite its advantages, AL can have difficulty with
class-imbalanced datasets and results in an inefficient labeling process. To
address these drawbacks, we investigate our unsupervised instance selection
(UNISEL) technique followed by a Random Forest (RF) classifier on 10 outlier
detection datasets under low-label conditions. These results are compared to AL
performed on the same datasets. Further, we investigate the combination of
UNISEL and AL. Results indicate that UNISEL followed by an RF performs
comparably to AL with an RF and that the combination of UNISEL and AL
demonstrates superior performance. The practical implications of these findings
in terms of time savings and generalizability afforded by UNISEL are discussed.
- Abstract(参考訳): データをラベル付けする面倒なプロセスは、しばしば、教師付き機械学習の力を活用しようとするプロジェクトのボトルネックとなる。
アクティブラーニング(al)は、ヒューマンアノテータに最も不確定なクラス割り当てを持つインスタンスのラベルをクエリする反復的なフレームワークを通じて、この条件を改善する技術として確立された。
このメカニズムにより、ALは少ないラベル付きデータで訓練されたバイナリ分類器を生成するが、予測性能の損失はほとんどない。
その利点にもかかわらず、ALはクラス不均衡なデータセットに難航し、非効率なラベリングプロセスをもたらす。
これらの欠点に対処するため、低ラベル条件下での10個の外れ値検出データセットに対して、unsupervised instance selection (UNISEL) 手法とRandom Forest (RF) 分類器を併用した。
これらの結果は、同じデータセットで実行されるalと比較される。
さらに,UNISELとALの組み合わせについても検討した。
その結果,UNISELの後続のRFはRFとALと同等に動作し,UNISELとALの組み合わせは優れた性能を示した。
これらの知見の実際的な意義について,ユニセルが与える時間節約と一般化可能性について論じる。
関連論文リスト
- MyriadAL: Active Few Shot Learning for Histopathology [10.652626309100889]
我々は、Myriad Active Learning (MAL)という、アクティブな数個のショットラーニングフレームワークを導入する。
MALには、コントラスト学習エンコーダ、擬似ラベル生成、ループ内の新しいクエリサンプル選択が含まれている。
2つの公的な病理組織学データセットの実験により、MALは以前の研究に比べてテスト精度、マクロF1スコア、ラベル効率が優れていることが示された。
論文 参考訳(メタデータ) (2023-10-24T20:08:15Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z) - Active Learning by Feature Mixing [52.16150629234465]
本稿では,ALFA-Mixと呼ばれるバッチ能動学習手法を提案する。
予測の不整合を求めることにより,不整合な特徴を持つインスタンスを同定する。
これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。
論文 参考訳(メタデータ) (2022-03-14T12:20:54Z) - ATM: An Uncertainty-aware Active Self-training Framework for
Label-efficient Text Classification [13.881283744970979]
ATMは、ラベルのないデータを活用するために自己学習を利用する新しいフレームワークであり、特定のALアルゴリズムに依存しない。
我々はATMが最強のアクティブラーニングと自己学習ベースラインを上回り、ラベル効率を平均51.9%向上させることを実証した。
論文 参考訳(メタデータ) (2021-12-16T11:09:48Z) - Active learning for reducing labeling effort in text classification
tasks [3.8424737607413153]
アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有益とみなすデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。
本稿では,異なる不確実性に基づくアルゴリズム BERT$_base$ を比較した実験的検討を行った。
その結果,BERT$base$で不確実性に基づくALを用いることで,データのランダムサンプリングに優れることがわかった。
論文 参考訳(メタデータ) (2021-09-10T13:00:36Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Relieving the Plateau: Active Semi-Supervised Learning for a Better
Landscape [2.3046646540823916]
semi-supervised learning (ssl) はラベル付きデータよりもアクセスしやすいラベルなしデータを活用する。
active learning (al)は、ラベルなしのインスタンスを選択して、ラベル付きデータの少ないパフォーマンスを期待する。
本稿では,ラベル付き集合を含む問題条件を改善するためにラベル付きデータを選択するALアルゴリズムである収束率制御(CRC)を提案する。
論文 参考訳(メタデータ) (2021-04-08T06:03:59Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Reducing Confusion in Active Learning for Part-Of-Speech Tagging [100.08742107682264]
アクティブラーニング(AL)は、データ選択アルゴリズムを使用して、アノテーションコストを最小限に抑えるために有用なトレーニングサンプルを選択する。
本研究では、特定の出力タグのペア間の混乱を最大に低減するインスタンスの選択問題について検討する。
提案するAL戦略は,他のAL戦略よりも有意差で優れている。
論文 参考訳(メタデータ) (2020-11-02T06:24:58Z) - Classify and Generate Reciprocally: Simultaneous Positive-Unlabelled
Learning and Conditional Generation with Extra Data [77.31213472792088]
クラスラベルデータの不足は、多くの機械学習問題において、ユビキタスなボトルネックとなっている。
本稿では, 正負ラベル付き(PU)分類と, 余分なラベル付きデータによる条件生成を活用することで, この問題に対処する。
本稿では,PU分類と条件生成を併用した新たなトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T08:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。