論文の概要: TK-KNN: A Balanced Distance-Based Pseudo Labeling Approach for
Semi-Supervised Intent Classification
- arxiv url: http://arxiv.org/abs/2310.11607v1
- Date: Tue, 17 Oct 2023 22:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:31:23.530030
- Title: TK-KNN: A Balanced Distance-Based Pseudo Labeling Approach for
Semi-Supervised Intent Classification
- Title(参考訳): TK-KNN セミスーパービジョンインテント分類のための平衡距離に基づく擬似ラベル手法
- Authors: Nicholas Botzer, David Vasquez, Tim Weninger, Issam Laradji
- Abstract要約: Top-K K-Nearest Neighbor (TK-KNN)について述べる。
埋め込み空間における距離に基づくより堅牢な擬ラベル法を用いる。
ランキングベースのアプローチを通じて、クラス間で擬似ラベル付きサンプルのバランスのとれたセットを維持している。
- 参考スコア(独自算出の注目度): 7.124416079128576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to detect intent in dialogue systems has become increasingly
important in modern technology. These systems often generate a large amount of
unlabeled data, and manually labeling this data requires substantial human
effort. Semi-supervised methods attempt to remedy this cost by using a model
trained on a few labeled examples and then by assigning pseudo-labels to
further a subset of unlabeled examples that has a model prediction confidence
higher than a certain threshold. However, one particularly perilous consequence
of these methods is the risk of picking an imbalanced set of examples across
classes, which could lead to poor labels. In the present work, we describe
Top-K K-Nearest Neighbor (TK-KNN), which uses a more robust pseudo-labeling
approach based on distance in the embedding space while maintaining a balanced
set of pseudo-labeled examples across classes through a ranking-based approach.
Experiments on several datasets show that TK-KNN outperforms existing models,
particularly when labeled data is scarce on popular datasets such as CLINC150
and Banking77. Code is available at https://github.com/ServiceNow/tk-knn
- Abstract(参考訳): 対話システムにおける意図を検出する能力は、現代技術においてますます重要になっている。
これらのシステムは、しばしば大量のラベルのないデータを生成し、このデータを手動でラベル付けするには相当な努力が必要である。
半教師付きメソッドは、いくつかのラベル付き例でトレーニングされたモデルを使用し、擬似ラベルを特定のしきい値以上のモデル予測信頼度を持つラベルなし例のサブセットに割り当てることで、このコストを是正しようとする。
しかしながら、これらの手法の特に危険な結果の1つは、クラス間で不均衡なサンプルのセットを選択するリスクであり、ラベルが貧弱になる可能性がある。
本稿では,k-nearest neighbor (tk-knn) について述べる。この手法は埋め込み空間内の距離に基づくより頑健な擬似ラベル手法を用いており,ランク付けに基づくアプローチによりクラス間の擬似ラベル例のバランスを保っている。
いくつかのデータセットの実験では、TK-KNNが既存のモデルよりも優れていることが示されている。
コードはhttps://github.com/ServiceNow/tk-knnで入手できる。
関連論文リスト
- Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - Boosting Semi-Supervised Learning with Contrastive Complementary
Labeling [11.851898765002334]
一般的なアプローチは擬似ラベル作成であり、信頼度の高いラベル付きデータに対してのみ擬似ラベルを生成する。
信頼度が低い擬似ラベルを持つデータは、トレーニングプロセスにまだ有効である可能性があることを強調する。
そこで本研究では,多数の信頼な負対を構成する新しいコントラスト補完ラベリング法を提案する。
論文 参考訳(メタデータ) (2022-12-13T15:25:49Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - SimPLE: Similar Pseudo Label Exploitation for Semi-Supervised
Classification [24.386165255835063]
一般的な分類タスクの状況は、トレーニングに利用可能な大量のデータを持っているが、クラスラベルを持つのはごく一部である。
この文脈で、半監督トレーニングの目標は、大量のラベルのないデータからの情報を利用して分類精度を向上させることです。
本研究では,相互に類似した高信頼度ラベル付きデータ間の研究の少ない関係に焦点をあてた,教師なしの新たな目的を提案する。
提案したSimPLEアルゴリズムは,CIFAR-100およびMini-ImageNetにおける従来のアルゴリズムと比較して有意な性能向上を示した。
論文 参考訳(メタデータ) (2021-03-30T23:48:06Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - How to trust unlabeled data? Instance Credibility Inference for Few-Shot
Learning [47.21354101796544]
本稿では,未ラベルのインスタンスを数発の視覚認識に利用するために,ICI (Instance Credibility Inference) と呼ばれる統計的アプローチを提案する。
擬似ラベル付きインスタンスの信頼性は, それらの付随パラメータの正規化経路に沿ってランク付けし, 最も信頼性の高い擬似ラベル付きインスタンスを拡張ラベル付きインスタンスとして保存する。
論文 参考訳(メタデータ) (2020-07-15T03:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。