論文の概要: Self-Training of Handwritten Word Recognition for Synthetic-to-Real
Adaptation
- arxiv url: http://arxiv.org/abs/2206.03149v1
- Date: Tue, 7 Jun 2022 09:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 14:56:32.221541
- Title: Self-Training of Handwritten Word Recognition for Synthetic-to-Real
Adaptation
- Title(参考訳): 音声合成適応のための手書き単語認識の自己学習
- Authors: Fabian Wolf and Gernot A. Fink
- Abstract要約: そこで本研究では,手書きテキスト認識モデルを学習するための自己学習手法を提案する。
提案手法は、合成データに基づいて訓練された初期モデルを用いて、ラベルなしターゲットデータセットの予測を行う。
提案手法は,広範に使用されている4つのベンチマークデータセットに対して評価し,完全に教師された方法で訓練されたモデルとのギャップを埋めることの有効性を示す。
- 参考スコア(独自算出の注目度): 4.111899441919165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performances of Handwritten Text Recognition (HTR) models are largely
determined by the availability of labeled and representative training samples.
However, in many application scenarios labeled samples are scarce or costly to
obtain. In this work, we propose a self-training approach to train a HTR model
solely on synthetic samples and unlabeled data. The proposed training scheme
uses an initial model trained on synthetic data to make predictions for the
unlabeled target dataset. Starting from this initial model with rather poor
performance, we show that a considerable adaptation is possible by training
against the predicted pseudo-labels. Moreover, the investigated self-training
strategy does not require any manually annotated training samples. We evaluate
the proposed method on four widely used benchmark datasets and show its
effectiveness on closing the gap to a model trained in a fully-supervised
manner.
- Abstract(参考訳): 手書き文字認識(HTR)モデルの性能は、ラベル付きおよび代表的トレーニングサンプルの可用性によって決定される。
しかし、多くのアプリケーションシナリオでは、ラベル付けされたサンプルは入手が困難またはコストがかかる。
本研究では,合成サンプルとラベルなしデータのみに基づくHTRモデルを学習するための自己学習手法を提案する。
提案手法は、合成データに基づいて訓練された初期モデルを用いて、ラベルなしターゲットデータセットの予測を行う。
まず,この初期モデルから,予測された擬似ラベルに対してトレーニングを行うことで,相当な適応が可能となることを示す。
さらに, 自己学習戦略では, 手動でアノテートしたトレーニングサンプルは不要である。
提案手法は, 広く使用されている4つのベンチマークデータセット上で評価し, 完全に教師付きで訓練されたモデルとのギャップを閉じる効果を示す。
関連論文リスト
- Foster Adaptivity and Balance in Learning with Noisy Labels [26.309508654960354]
我々はtextbfSelf-adaptivtextbfE とクラスバランスtextbfD 方式でラベルノイズに対処するための textbfSED という新しい手法を提案する。
平均教師モデルは、ノイズの多いサンプルのラベルを修正するために使用される。
また,検出した雑音に異なる重みを割り当てる自己適応型およびクラスバランスのサンプル再重み付け機構を提案する。
論文 参考訳(メタデータ) (2024-07-03T03:10:24Z) - Pre-Trained Vision-Language Models as Partial Annotators [40.89255396643592]
事前学習された視覚言語モデルは、画像と自然言語の統一表現をモデル化するために大量のデータを学習する。
本稿では,事前学習型モデルアプリケーションのための「事前学習型-弱教師付き学習」パラダイムについて検討し,画像分類タスクの実験を行う。
論文 参考訳(メタデータ) (2024-05-23T17:17:27Z) - How Low Can You Go? Surfacing Prototypical In-Distribution Samples for Unsupervised Anomaly Detection [48.30283806131551]
非常に少ないトレーニングサンプルを持つUADが、トレーニングデータセット全体のトレーニングパフォーマンスにすでに一致している - そして、場合によっては、それを超えることもある、ということが、私たちは示しています。
そこで本研究では,UAD性能をさらに向上させるために,原型標本を確実に同定するための教師なし手法を提案する。
論文 参考訳(メタデータ) (2023-12-06T15:30:47Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Rethinking Precision of Pseudo Label: Test-Time Adaptation via
Complementary Learning [10.396596055773012]
本稿では,テスト時間適応性を高めるための新しい補完学習手法を提案する。
テスト時適応タスクでは、ソースドメインからの情報は通常利用できない。
我々は,相補ラベルのリスク関数がバニラ損失式と一致することを強調した。
論文 参考訳(メタデータ) (2023-01-15T03:36:33Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z) - SE3M: A Model for Software Effort Estimation Using Pre-trained Embedding
Models [0.8287206589886881]
本稿では,事前学習した埋め込みモデルの有効性を評価する。
両方のアプローチでトレーニング済みのジェネリックモデルは、微調整プロセスを経ている。
テスト結果は非常に有望で、事前トレーニングされたモデルを使用して、要求テキストのみに基づいてソフトウェアの労力を見積もることができることに気付きました。
論文 参考訳(メタデータ) (2020-06-30T14:15:38Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。