論文の概要: Few Shots Is All You Need: A Progressive Few Shot Learning Approach for
Low Resource Handwriting Recognition
- arxiv url: http://arxiv.org/abs/2107.10064v1
- Date: Wed, 21 Jul 2021 13:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 17:44:37.589204
- Title: Few Shots Is All You Need: A Progressive Few Shot Learning Approach for
Low Resource Handwriting Recognition
- Title(参考訳): 低リソース手書き文字認識のためのプログレッシブなFew Shot Learningアプローチ
- Authors: Mohamed Ali Souibgui, Alicia Forn\'es, Yousri Kessentini, Be\'ata
Megyesi
- Abstract要約: 本稿では,人的労働力のアノテーション処理を大幅に削減する,数ショットの学習に基づく手書き文字認識手法を提案する。
我々のモデルは、テキストライン画像中の与えられたアルファベットのすべてのシンボルを検出し、デコードステップは、シンボル類似性のスコアを転写されたシンボルの最終シーケンスにマッピングする。
このリトレーニングには,数千の手書き記号と境界ボックスのアノテーションが必要であるため,教師なしのプログレッシブ・ラーニング・アプローチによる人的作業を回避することを提案する。
- 参考スコア(独自算出の注目度): 1.7491858164568674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten text recognition in low resource scenarios, such as manuscripts
with rare alphabets, is a challenging problem. The main difficulty comes from
the very few annotated data and the limited linguistic information (e.g.
dictionaries and language models). Thus, we propose a few-shot learning-based
handwriting recognition approach that significantly reduces the human labor
annotation process, requiring only few images of each alphabet symbol. First,
our model detects all symbols of a given alphabet in a textline image, then a
decoding step maps the symbol similarity scores to the final sequence of
transcribed symbols. Our model is first pretrained on synthetic line images
generated from any alphabet, even though different from the target domain. A
second training step is then applied to diminish the gap between the source and
target data. Since this retraining would require annotation of thousands of
handwritten symbols together with their bounding boxes, we propose to avoid
such human effort through an unsupervised progressive learning approach that
automatically assigns pseudo-labels to the non-annotated data. The evaluation
on different manuscript datasets show that our model can lead to competitive
results with a significant reduction in human effort.
- Abstract(参考訳): 希少なアルファベットの写本のような低資源シナリオにおける手書き文字認識は難しい問題である。
主な難しさは、わずかな注釈付きデータと限られた言語情報(例)から生じる。
辞書と言語モデル)。
そこで本研究では,人為的作業のアノテーション処理を大幅に削減し,アルファベット記号の少ない画像のみを必要とする,数ショットの学習に基づく手書き文字認識手法を提案する。
まず,与えられたアルファベットのすべての記号をテキストライン画像で検出し,符号化ステップで記号類似度スコアを書き起こされた記号の最終列にマップする。
我々のモデルは、ターゲット領域と異なるが、まず任意のアルファベットから生成された合成線画像に基づいて事前訓練される。
次に、第2のトレーニングステップを適用して、ソースとターゲットデータのギャップを小さくする。
このリトレーニングには,数千の手書き記号と境界ボックスのアノテーションが必要であるため,非注釈データに擬似ラベルを自動的に割り当てる教師なしのプログレッシブラーニングアプローチによる人的作業を回避することを提案する。
異なる写本データセットに対する評価は、我々のモデルが人間の労力を大幅に削減することで競争結果をもたらすことを示している。
関連論文リスト
- Sign Stitching: A Novel Approach to Sign Language Production [35.35777909051466]
本稿では,辞書の例を用いて,表現力のある手話列を生成することを提案する。
サインを効果的に縫合するための7段階のアプローチを提案する。
我々はSignGANモデルを利用して、出力をフォトリアリスティックシグナにマップする。
論文 参考訳(メタデータ) (2024-05-13T11:44:57Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - A Few-shot Learning Approach for Historical Ciphered Manuscript
Recognition [3.0682439731292592]
少数ショットオブジェクト検出に基づく手書き音声認識のための新しい手法を提案する。
合成データのトレーニングにより,提案アーキテクチャは未知のアルファベットで手書きの暗号を認識可能であることを示す。
論文 参考訳(メタデータ) (2020-09-26T11:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。