論文の概要: Exemplar Guided Active Learning
- arxiv url: http://arxiv.org/abs/2011.01285v1
- Date: Mon, 2 Nov 2020 20:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 10:53:53.665565
- Title: Exemplar Guided Active Learning
- Title(参考訳): exemplar guide アクティブラーニング
- Authors: Jason Hartford, Kevin Leyton-Brown, Hadas Raviv, Dan Padnos, Shahar
Lev, Barak Lenz
- Abstract要約: 我々は、限られた予算を用いて、大規模な未ラベルデータセットの小さなサブセットをラベル付けする問題を賢明に検討する。
いずれにせよ、知識ベースから候補ラベルのセットがあるが、ラベルセットは必ずしもデータに何が起こるかを表すものではない。
本稿では,現代言語モデルが提供する文脈埋め込み空間を活用することで,希少なクラスを明示的に検索する能動的学習手法について述べる。
- 参考スコア(独自算出の注目度): 13.084183663366824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of wisely using a limited budget to label a small
subset of a large unlabeled dataset. We are motivated by the NLP problem of
word sense disambiguation. For any word, we have a set of candidate labels from
a knowledge base, but the label set is not necessarily representative of what
occurs in the data: there may exist labels in the knowledge base that very
rarely occur in the corpus because the sense is rare in modern English; and
conversely there may exist true labels that do not exist in our knowledge base.
Our aim is to obtain a classifier that performs as well as possible on examples
of each "common class" that occurs with frequency above a given threshold in
the unlabeled set while annotating as few examples as possible from "rare
classes" whose labels occur with less than this frequency. The challenge is
that we are not informed which labels are common and which are rare, and the
true label distribution may exhibit extreme skew. We describe an active
learning approach that (1) explicitly searches for rare classes by leveraging
the contextual embedding spaces provided by modern language models, and (2)
incorporates a stopping rule that ignores classes once we prove that they occur
below our target threshold with high probability. We prove that our algorithm
only costs logarithmically more than a hypothetical approach that knows all
true label frequencies and show experimentally that incorporating automated
search can significantly reduce the number of samples needed to reach target
accuracy levels.
- Abstract(参考訳): 我々は、限られた予算を用いて、大規模な未ラベルデータセットの小さなサブセットをラベル付けする問題を考える。
我々は,単語感覚の曖昧さというNLP問題に動機付けられている。
どの単語に対しても、我々は知識ベースから候補ラベルのセットを持っているが、ラベルセットは必ずしもデータに何が起こるかを表すものではない: 現代の英語では感覚が稀であるため、コーパス内でほとんど発生しないラベルが存在するかもしれないし、逆に我々の知識ベースには存在しない真のラベルが存在するかもしれない。
本研究の目的は,ラベルなし集合において与えられたしきい値以上の頻度で発生する各「共通クラス」の例に対して可能な限り実行可能な分類器を得ることであり,ラベルがこの周波数未満で発生する「レーアクラス」から可能な限り少数の例をアノテートすることである。
課題は、どのラベルが一般的で、どのラベルが稀であるかが知られておらず、真のラベル分布が極端に歪む可能性があることだ。
1) 現代言語モデルが提供する文脈埋め込み空間を利用して, 希少なクラスを明示的に検索し, (2) 対象の閾値以下で高い確率で発生することを証明すれば, クラスを無視する停止規則を組み込んだアクティブラーニング手法を提案する。
我々は,本アルゴリズムが真のラベル周波数を全て知るという仮説的アプローチ以上のコストしかかからないことを証明し,自動探索を導入することで,目標精度に達するために必要なサンプル数を著しく削減できることを実験的に示す。
関連論文リスト
- Robust Assignment of Labels for Active Learning with Sparse and Noisy
Annotations [0.17188280334580192]
監視された分類アルゴリズムは、世界中の多くの現実の問題を解決するために使用される。
残念なことに、多くのタスクに対して良質なアノテーションを取得することは、実際に行うには不可能か、あるいはコストがかかりすぎます。
サンプル空間のラベルのない部分を利用する2つの新しいアノテーション統一アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-07-25T19:40:41Z) - Imprecise Label Learning: A Unified Framework for Learning with Various Imprecise Label Configurations [91.67511167969934]
imprecise label learning (ILL)は、様々な不正確なラベル構成で学習を統合するためのフレームワークである。
我々は、ILLが部分ラベル学習、半教師付き学習、雑音ラベル学習にシームレスに適応できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T04:50:28Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Multi-Label Quantification [78.83284164605473]
定量化とは、教師なしデータサンプルにおいて、興味あるクラスの相対周波数の予測子を生成する教師付き学習課題である。
本研究では,その相対頻度をより正確に予測するために,興味あるクラス間の依存関係を活用しようとするクラス有病率値の推定手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T11:29:59Z) - An Effective Approach for Multi-label Classification with Missing Labels [8.470008570115146]
分類ネットワークにさらなる複雑さをもたらすことなく、アノテーションのコストを削減するための擬似ラベルベースのアプローチを提案する。
新たな損失関数を設計することにより、各インスタンスが少なくとも1つの正のラベルを含む必要があるという要求を緩和することができる。
提案手法は,正のラベルと負のラベルの不均衡を扱える一方で,既存の欠落ラベル学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T23:13:57Z) - Learning with Proper Partial Labels [87.65718705642819]
部分ラベル学習は、不正確なラベルを持つ弱い教師付き学習の一種である。
この適切な部分ラベル学習フレームワークには,従来の部分ラベル学習設定が数多く含まれていることを示す。
次に、分類リスクの統一的非バイアス推定器を導出する。
論文 参考訳(メタデータ) (2021-12-23T01:37:03Z) - Harmless label noise and informative soft-labels in supervised
classification [1.6752182911522517]
トレーニング例の手動ラベリングは、教師付き学習の一般的なプラクティスです。
ラベル処理が非自明な難易度である場合、供給されたラベルは接地ラベルと等しくなく、ラベルノイズをトレーニングデータセットに導入する。
特に、分類困難がラベルエラーの唯一の原因である場合、複数のノイズラベルセットは、分類規則の推定により多くの情報を提供することができる。
論文 参考訳(メタデータ) (2021-04-07T02:56:11Z) - Exploiting Context for Robustness to Label Noise in Active Learning [47.341705184013804]
本稿では,どのラベルが間違っているのかをシステムがどのように識別するか,ラベルノイズの負の影響を最小限に抑えるために,マルチクラスアクティブラーニングシステムをどのように適用できるか,といった課題に対処する。
我々は、これらの関係を符号化し、ノイズラベルが利用できる場合にグラフ上の新しい信念を得るために、ラベルなしデータのグラフィカルな表現を構築した。
これはシーン分類、アクティビティ分類、文書分類の3つの異なる応用で実証されている。
論文 参考訳(メタデータ) (2020-10-18T18:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。