論文の概要: Finetuning Is a Surprisingly Effective Domain Adaptation Baseline in
Handwriting Recognition
- arxiv url: http://arxiv.org/abs/2302.06308v1
- Date: Mon, 13 Feb 2023 12:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 15:38:25.369174
- Title: Finetuning Is a Surprisingly Effective Domain Adaptation Baseline in
Handwriting Recognition
- Title(参考訳): Finetuningは、手書き文字認識における驚くほど効果的なドメイン適応ベースライン
- Authors: Jan Koh\'ut, Michal Hradi\v{s}
- Abstract要約: データ拡張による微調整は、手書き認識のために訓練されたニューラルネットワークの場合、驚くほどうまく機能する。
大規模な実世界のデータセットでは、ファインタニングにより、平均的なCER改善が25パーセント、新しいライターが16行、256行が50%となった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many machine learning tasks, a large general dataset and a small
specialized dataset are available. In such situations, various domain
adaptation methods can be used to adapt a general model to the target dataset.
We show that in the case of neural networks trained for handwriting recognition
using CTC, simple finetuning with data augmentation works surprisingly well in
such scenarios and that it is resistant to overfitting even for very small
target domain datasets. We evaluated the behavior of finetuning with respect to
augmentation, training data size, and quality of the pre-trained network, both
in writer-dependent and writer-independent settings. On a large real-world
dataset, finetuning provided an average relative CER improvement of 25 % with
16 text lines for new writers and 50 % for 256 text lines.
- Abstract(参考訳): 多くの機械学習タスクでは、大きな汎用データセットと小さな専門データセットが利用可能である。
このような状況では、ターゲットデータセットに汎用モデルを適用するために、さまざまなドメイン適応手法が使用できる。
ctcを使って手書き認識を訓練したニューラルネットワークの場合、このようなシナリオではデータ拡張による単純な微調整が驚くほどうまく機能し、非常に小さなターゲット領域のデータセットでも過剰に適合することが示されている。
著者に依存しない設定,著者に依存しない設定において,事前学習したネットワークの強化,データサイズ,品質に関する微調整の挙動を評価した。
大規模な実世界のデータセットでは、ファインタニングにより、平均的なCER改善が25パーセント、新しいライターが16行、256行が50%となった。
関連論文リスト
- Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Diversify Your Vision Datasets with Automatic Diffusion-Based
Augmentation [66.6546668043249]
ALIA(Automated Language-Guided Image Augmentation)は、大規模ビジョンと言語モデルを用いてデータセットのドメインの自然言語記述を自動的に生成する手法である。
データ整合性を維持するために、オリジナルのデータセットでトレーニングされたモデルは、最小限の画像編集とクラス関連情報を破損したデータをフィルタリングする。
そこで本研究では,ALIAが従来のデータ拡張や,詳細な分類作業におけるテキストから画像への変換を超越できることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:43:05Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - Adaptive Multi-Corpora Language Model Training for Speech Recognition [13.067901680326932]
本稿では,学習過程に沿って各コーパスのサンプリング確率を動的に学習・調整する適応型多コーパス学習アルゴリズムを提案する。
静的サンプリング戦略のベースラインと比較すると,提案手法は顕著な改善をもたらす。
論文 参考訳(メタデータ) (2022-11-09T06:54:50Z) - Improving Data Driven Inverse Text Normalization using Data Augmentation [14.820077884045645]
逆テキスト正規化(ITN)は、自動音声認識(ASR)システムの音声フォーム出力を書式に変換するために用いられる。
本稿では、ドメイン外のテキストデータからリッチな音声による数値ペアを効果的に生成するデータ拡張手法を提案する。
我々は、データ拡張技術を用いてトレーニングしたITNモデルが、ドメイン内データのみを用いてトレーニングしたITNモデルより一貫して優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-07-20T06:07:26Z) - Transferring BERT-like Transformers' Knowledge for Authorship
Verification [8.443350618722562]
著者確認作業におけるBERT様変圧器の有効性について検討した。
我々はPAN-2020の新しいスプリットを提供し、不連続なトピックや著者からトレーニングデータとテストデータをサンプリングする。
これらの分割は、新しい、かなり異なるデータセット上で知識を伝達するモデルの能力を高めることができることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:57:29Z) - VisDA-2021 Competition Universal Domain Adaptation to Improve
Performance on Out-of-Distribution Data [64.91713686654805]
Visual Domain Adaptation (VisDA) 2021コンペティションは、新しいテストディストリビューションに適応するモデルの能力をテストする。
我々は,新しい視点,背景,モダリティ,品質劣化への適応性を評価する。
厳密なプロトコルを使用してパフォーマンスを計測し、最先端のドメイン適応手法と比較する。
論文 参考訳(メタデータ) (2021-07-23T03:21:51Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Supervised Domain Adaptation using Graph Embedding [86.3361797111839]
領域適応法は、2つの領域間の分布がシフトし、それを認識しようとすると仮定する。
グラフ埋め込みに基づく汎用フレームワークを提案する。
提案手法が強力なドメイン適応フレームワークにつながることを示す。
論文 参考訳(メタデータ) (2020-03-09T12:25:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。