論文の概要: Confident Sinkhorn Allocation for Pseudo-Labeling
- arxiv url: http://arxiv.org/abs/2206.05880v5
- Date: Tue, 5 Mar 2024 07:18:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 04:30:36.281244
- Title: Confident Sinkhorn Allocation for Pseudo-Labeling
- Title(参考訳): Pseudo-Labeling の信頼性
- Authors: Vu Nguyen and Hisham Husain and Sachin Farfade and Anton van den
Hengel
- Abstract要約: 半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
- 参考スコア(独自算出の注目度): 40.883130133661304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semi-supervised learning is a critical tool in reducing machine learning's
dependence on labeled data. It has been successfully applied to structured
data, such as images and natural language, by exploiting the inherent spatial
and semantic structure therein with pretrained models or data augmentation.
These methods are not applicable, however, when the data does not have the
appropriate structure, or invariances. Due to their simplicity, pseudo-labeling
(PL) methods can be widely used without any domain assumptions. However, the
greedy mechanism in PL is sensitive to a threshold and can perform poorly if
wrong assignments are made due to overconfidence. This paper studies
theoretically the role of uncertainty to pseudo-labeling and proposes Confident
Sinkhorn Allocation (CSA), which identifies the best pseudo-label allocation
via optimal transport to only samples with high confidence scores. CSA
outperforms the current state-of-the-art in this practically important area of
semi-supervised learning. Additionally, we propose to use the Integral
Probability Metrics to extend and improve the existing PACBayes bound which
relies on the Kullback-Leibler (KL) divergence, for ensemble models. Our code
is publicly available at https://github.com/amzn/confident-sinkhorn-allocation.
- Abstract(参考訳): 半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
画像や自然言語などの構造化データに対して、事前訓練されたモデルやデータ拡張による空間的・意味的構造の利用によって、うまく適用されてきた。
しかし、データに適切な構造や不変性がない場合には、これらの手法は適用できない。
その単純さのため、擬似ラベル法(PL)メソッドはドメインの仮定なしに広く利用することができる。
しかし、plの欲望のメカニズムは閾値に敏感であり、過信によって間違った割り当てがなされた場合、うまくいかない。
本稿では,疑似ラベルリングにおける不確実性の役割を理論的に検討し,信頼度の高いサンプルのみへの最適移動を通じて最適な疑似ラベル割り当てを同定するssummit sinkhorn allocation (csa)を提案する。
CSAは、半教師付き学習のこの事実上重要な領域において、現在の最先端技術よりも優れています。
さらに,KL(Kulback-Leibler)の発散に依存する既存のPACBayes境界をアンサンブルモデルに拡張・改善するために,積分確率測定を用いることを提案する。
私たちのコードはhttps://github.com/amzn/confident-sinkhorn-allocationで公開されています。
関連論文リスト
- CAST: Cluster-Aware Self-Training for Tabular Data [0.5461938536945723]
自己学習は、誤った自信によって引き起こされるノイズの多い擬似ラベルに対して脆弱である。
CAST(Cluster-Aware Self-Training)は、既存の自己学習アルゴリズムを、大幅な修正なしに無視可能なコストで強化する。
論文 参考訳(メタデータ) (2023-10-10T07:46:54Z) - An Uncertainty-Aware Pseudo-Label Selection Framework using Regularized
Conformal Prediction [0.0]
Pseudo-labeling (PL)は汎用的でドメインに依存しないSSLアプローチである。
PLは低校正モデルからの誤った高信頼予測により性能が低下する。
本稿では,不確実性を考慮した擬似ラベル選択フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T17:13:30Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - ProtoCon: Pseudo-label Refinement via Online Clustering and Prototypical
Consistency for Efficient Semi-supervised Learning [60.57998388590556]
ProtoConは信頼性に基づく疑似ラベル作成の新しい手法である。
ProtoConのオンライン版では、データセット全体のラベル履歴を1回のトレーニングサイクルで活用することができる。
最先端のデータセットよりも大幅に向上し、より高速に収束する。
論文 参考訳(メタデータ) (2023-03-22T23:51:54Z) - Uncertainty-aware Self-training for Low-resource Neural Sequence
Labeling [29.744621356187764]
本稿では,ニューラルシークエンスラベリング(NSL)のための新しい未知の自己学習フレームワークSeqUSTを提案する。
ベイジアンニューラルネットワーク(BNN)にモンテカルロ(MC)ドロップアウトを組み込んでトークンレベルで不確実性評価を行い、ラベルのないデータから信頼性の高い言語トークンを選択する。
ノイズロスのあるマスク付きシークエンスラベリングタスクは、ノイズのある擬似ラベルの問題を抑えることを目的とした堅牢なトレーニングを支援する。
論文 参考訳(メタデータ) (2023-02-17T02:40:04Z) - Cycle Self-Training for Domain Adaptation [85.14659717421533]
Cycle Self-Training (CST) は、ドメイン間の一般化に擬似ラベルを強制する、原則付き自己学習アルゴリズムである。
CSTは目標の真理を回復し、不変の機能学習とバニラ自己訓練の両方が失敗する。
実験結果から,標準的なUDAベンチマークでは,CSTは先行技術よりも大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2021-03-05T10:04:25Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Sinkhorn Label Allocation: Semi-Supervised Classification via Annealed
Self-Training [38.81973113564937]
セルフトレーニングは、学習者がラベルのないデータに関する予測をトレーニング中の監督として使用する半教師付き学習の標準的なアプローチです。
本稿では,このラベル割当問題を事例とクラス間の最適輸送問題として再解釈する。
我々は,CIFAR-10,CIFAR-100,SVHNデータセットに対するアルゴリズムの有効性を,最先端の自己学習アルゴリズムであるFixMatchと比較した。
論文 参考訳(メタデータ) (2021-02-17T08:23:15Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。