論文の概要: Seq-UPS: Sequential Uncertainty-aware Pseudo-label Selection for
Semi-Supervised Text Recognition
- arxiv url: http://arxiv.org/abs/2209.00641v1
- Date: Wed, 31 Aug 2022 02:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:02:42.797225
- Title: Seq-UPS: Sequential Uncertainty-aware Pseudo-label Selection for
Semi-Supervised Text Recognition
- Title(参考訳): seq-ups:半教師付きテキスト認識のための逐次不確実性認識擬似ラベル選択
- Authors: Gaurav Patel, Jan Allebach and Qiang Qiu
- Abstract要約: 最も一般的なSSLアプローチの1つは擬似ラベル(PL)である。
PL法はノイズによって著しく劣化し、ノイズの多いラベルに過度に適合する傾向がある。
テキスト認識のための擬似ラベル生成と不確実性に基づくデータ選択フレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.583569162994277
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper looks at semi-supervised learning (SSL) for image-based text
recognition. One of the most popular SSL approaches is pseudo-labeling (PL). PL
approaches assign labels to unlabeled data before re-training the model with a
combination of labeled and pseudo-labeled data. However, PL methods are
severely degraded by noise and are prone to over-fitting to noisy labels, due
to the inclusion of erroneous high confidence pseudo-labels generated from
poorly calibrated models, thus, rendering threshold-based selection
ineffective. Moreover, the combinatorial complexity of the hypothesis space and
the error accumulation due to multiple incorrect autoregressive steps posit
pseudo-labeling challenging for sequence models. To this end, we propose a
pseudo-label generation and an uncertainty-based data selection framework for
semi-supervised text recognition. We first use Beam-Search inference to yield
highly probable hypotheses to assign pseudo-labels to the unlabelled examples.
Then we adopt an ensemble of models, sampled by applying dropout, to obtain a
robust estimate of the uncertainty associated with the prediction, considering
both the character-level and word-level predictive distribution to select good
quality pseudo-labels. Extensive experiments on several benchmark handwriting
and scene-text datasets show that our method outperforms the baseline
approaches and the previous state-of-the-art semi-supervised text-recognition
methods.
- Abstract(参考訳): 本稿では,画像に基づくテキスト認識のための半教師付き学習(SSL)について述べる。
最も一般的なSSLアプローチの1つは擬似ラベル(PL)である。
PLアプローチはラベル付きデータと擬似ラベル付きデータの組み合わせでモデルを再トレーニングする前にラベルをラベル付きデータに割り当てる。
しかし、pl法はノイズにより著しく劣化し、低校正モデルから発生する誤った高信頼擬似ラベルを含むため、ノイズラベルに過剰適合しやすいため、しきい値に基づく選択が効果的ではない。
さらに、仮説空間の組合せ複雑性と複数の不正確な自己回帰ステップによる誤差の蓄積は、シーケンスモデルに挑戦する疑似ラベルを与える。
そこで本研究では,半教師付きテキスト認識のための疑似ラベル生成と不確実性に基づくデータ選択フレームワークを提案する。
まずビームサーチの推論を用いて、確率の高い仮説を導出し、擬似ラベルをラベルのない例に割り当てる。
次に、ドロップアウトによりサンプリングしたモデルのアンサンブルを適用し、文字レベルと単語レベルの予測分布の両方を考慮して、予測に係わる不確かさを堅牢に推定し、良質な擬似ラベルを選択する。
いくつかのベンチマーク手書きおよびシーンテキストデータセットにおける広範囲な実験により、本手法がベースラインアプローチや以前の最先端の半教師付きテキスト認識手法よりも優れていることが示された。
関連論文リスト
- Dual-Decoupling Learning and Metric-Adaptive Thresholding for Semi-Supervised Multi-Label Learning [81.83013974171364]
半教師付きマルチラベル学習(SSMLL)は、正確なマルチラベルアノテーションを収集するコストを削減するために、ラベルのないデータを活用する強力なフレームワークである。
半教師付き学習とは異なり、インスタンスに含まれる複数のセマンティクスのため、SSMLLの擬似ラベルとして最も確率の高いラベルを選択することはできない。
本稿では,高品質な擬似ラベルを生成するための二重パースペクティブ手法を提案する。
論文 参考訳(メタデータ) (2024-07-26T09:33:53Z) - AllMatch: Exploiting All Unlabeled Data for Semi-Supervised Learning [5.0823084858349485]
提案するSSLアルゴリズムであるAllMatchは,擬似ラベル精度の向上とラベルなしデータの100%利用率の向上を実現する。
その結果、AllMatchは既存の最先端メソッドよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-06-22T06:59:52Z) - Generalized Semi-Supervised Learning via Self-Supervised Feature Adaptation [87.17768598044427]
従来の半教師付き学習は、ラベル付きデータとラベルなしデータの特徴分布が一貫したものであると仮定する。
本稿では,ラベル付きおよびラベルなしデータの分散によるSSL性能向上のための汎用フレームワークであるセルフ・スーパービジョン・フィーチャー・アダプテーション(SSFA)を提案する。
提案するSSFAは擬似ラベルベースのSSL学習者に適用可能であり,ラベル付き,ラベルなし,さらには目に見えない分布における性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-31T03:13:45Z) - Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。
標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。
より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2023-11-16T04:29:41Z) - Class-Distribution-Aware Pseudo Labeling for Semi-Supervised Multi-Label
Learning [97.88458953075205]
Pseudo-labelingは、ラベルなしデータを利用するための人気で効果的なアプローチとして登場した。
本稿では,クラスアウェアの擬似ラベル処理を行うCAP(Class-Aware Pseudo-Labeling)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-04T12:52:18Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - AggMatch: Aggregating Pseudo Labels for Semi-Supervised Learning [25.27527138880104]
半教師付き学習は、大量のラベルのないデータを活用するための効果的なパラダイムであることが証明されている。
AggMatchは、異なる自信のあるインスタンスを使用して初期擬似ラベルを洗練する。
我々は,AggMatchの標準ベンチマークにおける最新の手法に対する有効性を示す実験を行った。
論文 参考訳(メタデータ) (2022-01-25T16:41:54Z) - Multi-class Probabilistic Bounds for Self-learning [13.875239300089861]
Pseudo-labelingはエラーを起こしやすいため、ラベルなしのトレーニングデータにノイズのあるラベルを追加するリスクがある。
本稿では,多クラス分類シナリオにおける自己学習を部分的にラベル付きデータで分析する確率的枠組みを提案する。
論文 参考訳(メタデータ) (2021-09-29T13:57:37Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。