論文の概要: Sinkhorn Label Allocation: Semi-Supervised Classification via Annealed
Self-Training
- arxiv url: http://arxiv.org/abs/2102.08622v1
- Date: Wed, 17 Feb 2021 08:23:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 18:01:27.671866
- Title: Sinkhorn Label Allocation: Semi-Supervised Classification via Annealed
Self-Training
- Title(参考訳): Sinkhorn Label Allocation:Annealed Self-Trainingによる半監督型分類
- Authors: Kai Sheng Tai, Peter Bailis, Gregory Valiant
- Abstract要約: セルフトレーニングは、学習者がラベルのないデータに関する予測をトレーニング中の監督として使用する半教師付き学習の標準的なアプローチです。
本稿では,このラベル割当問題を事例とクラス間の最適輸送問題として再解釈する。
我々は,CIFAR-10,CIFAR-100,SVHNデータセットに対するアルゴリズムの有効性を,最先端の自己学習アルゴリズムであるFixMatchと比較した。
- 参考スコア(独自算出の注目度): 38.81973113564937
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Self-training is a standard approach to semi-supervised learning where the
learner's own predictions on unlabeled data are used as supervision during
training. In this paper, we reinterpret this label assignment process as an
optimal transportation problem between examples and classes, wherein the cost
of assigning an example to a class is mediated by the current predictions of
the classifier. This formulation facilitates a practical annealing strategy for
label assignment and allows for the inclusion of prior knowledge on class
proportions via flexible upper bound constraints. The solutions to these
assignment problems can be efficiently approximated using Sinkhorn iteration,
thus enabling their use in the inner loop of standard stochastic optimization
algorithms. We demonstrate the effectiveness of our algorithm on the CIFAR-10,
CIFAR-100, and SVHN datasets in comparison with FixMatch, a state-of-the-art
self-training algorithm. Additionally, we elucidate connections between our
proposed algorithm and existing confidence thresholded self-training approaches
in the context of homotopy methods in optimization. Our code is available at
https://github.com/stanford-futuredata/sinkhorn-label-allocation.
- Abstract(参考訳): セルフトレーニングは、学習者がラベルのないデータに関する予測をトレーニング中の監督として使用する半教師付き学習の標準的なアプローチです。
本稿では,このラベル割り当てプロセスを,実例とクラス間の最適な移動問題として再解釈し,クラスにサンプルを割り当てるコストは,分類器の現在の予測によって媒介される。
この定式化はラベル割り当ての実用的なアニーリング戦略を促進し、フレキシブルな上限制約によってクラス比率に事前知識を含めることができる。
これらの代入問題の解は、シンクホーン反復を用いて効率的に近似することができ、標準確率最適化アルゴリズムの内部ループで使うことができる。
我々は,CIFAR-10,CIFAR-100,SVHNデータセットに対するアルゴリズムの有効性を,最先端の自己学習アルゴリズムであるFixMatchと比較した。
さらに,提案アルゴリズムと既存の信頼度しきい値付き自己学習手法の相互関係を,最適化におけるホモトピー手法の文脈で解明する。
コードはhttps://github.com/stanford-futuredata/sinkhorn-label-allocationで入手できます。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - CSOT: Curriculum and Structure-Aware Optimal Transport for Learning with
Noisy Labels [13.807759089431855]
ノイズラベル(LNL)による学習は、十分に一般化されたモデルのトレーニングにおいて重要な課題となる。
近年の進歩は、クリーンなラベルと、トレーニングのための破損したラベルを識別することで、印象的なパフォーマンスを実現している。
我々は、CSOT(Curriculum and Structure-Aware Optimal Transport)と呼ばれる新しい最適輸送(OT)の定式化を提案する。
論文 参考訳(メタデータ) (2023-12-11T09:12:50Z) - Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。
標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。
より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2023-11-16T04:29:41Z) - Confident Sinkhorn Allocation for Pseudo-Labeling [40.883130133661304]
半教師付き学習は、ラベル付きデータへの機械学習の依存を減らす重要なツールである。
本稿では,疑似ラベル作成における不確実性の役割を理論的に研究し,CSA(Confident Sinkhorn Allocation)を提案する。
CSAは、信頼度の高いサンプルのみへの最適な輸送を通して、最高の擬似ラベル割り当てを特定する。
論文 参考訳(メタデータ) (2022-06-13T02:16:26Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - A Unified Generative Adversarial Network Training via Self-Labeling and
Self-Attention [38.31735499785227]
本稿では,任意のレベルのラベリングを統一的に処理できる新しいGANトレーニング手法を提案する。
提案手法では,手動で定義したラベルを組み込むことができる人工ラベル方式を導入する。
我々は, CIFAR-10, STL-10, SVHNに対するアプローチを評価し, 自己ラベルと自己アテンションの両方が生成データの品質を継続的に向上することを示す。
論文 参考訳(メタデータ) (2021-06-18T04:40:26Z) - Semi-Supervised Speech Recognition via Graph-based Temporal
Classification [59.58318952000571]
半教師付き学習は自己学習による自動音声認識において有望な結果を示した。
このアプローチの有効性は、主に擬似ラベルの精度に依存する。
N-bestリストの別のASR仮説は、ラベルなしの発話に対してより正確なラベルを提供することができる。
論文 参考訳(メタデータ) (2020-10-29T14:56:56Z) - Posterior Re-calibration for Imbalanced Datasets [33.379680556475314]
トレーニングラベルの分布が極めて不均衡な場合、ニューラルネットワークは性能が良くない。
我々は、KL分割に基づく最適化によって解決できる訓練後の事前バランス手法を導出する。
6つの異なるデータセットと5つの異なるアーキテクチャで得られた結果は、芸術的正確性を示している。
論文 参考訳(メタデータ) (2020-10-22T15:57:14Z) - Semi-Supervised Learning with Meta-Gradient [123.26748223837802]
半教師付き学習における簡単なメタ学習アルゴリズムを提案する。
その結果,提案アルゴリズムは最先端の手法に対して良好に動作することがわかった。
論文 参考訳(メタデータ) (2020-07-08T08:48:56Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。