論文の概要: ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation
- arxiv url: http://arxiv.org/abs/2003.10557v1
- Date: Mon, 23 Mar 2020 21:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 23:22:59.237158
- Title: ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation
- Title(参考訳): ScrabbleGAN:半スーパービジョンの手書きテキスト生成
- Authors: Sharon Fogel (1), Hadar Averbuch-Elor (2), Sarel Cohen, Shai Mazor (1)
and Roee Litman (1) ((1) Amazon Rekognition Israel, (2) Cornell University)
- Abstract要約: ScrabbleGANは手書きテキストイメージを半教師付きで合成する手法である。
ScrabbleGANは任意の長さの単語の画像を生成する新しい生成モデルに依存している。
- 参考スコア(独自算出の注目度): 0.9542023122304099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical character recognition (OCR) systems performance have improved
significantly in the deep learning era. This is especially true for handwritten
text recognition (HTR), where each author has a unique style, unlike printed
text, where the variation is smaller by design. That said, deep learning based
HTR is limited, as in every other task, by the number of training examples.
Gathering data is a challenging and costly task, and even more so, the labeling
task that follows, of which we focus here. One possible approach to reduce the
burden of data annotation is semi-supervised learning. Semi supervised methods
use, in addition to labeled data, some unlabeled samples to improve
performance, compared to fully supervised ones. Consequently, such methods may
adapt to unseen images during test time.
We present ScrabbleGAN, a semi-supervised approach to synthesize handwritten
text images that are versatile both in style and lexicon. ScrabbleGAN relies on
a novel generative model which can generate images of words with an arbitrary
length. We show how to operate our approach in a semi-supervised manner,
enjoying the aforementioned benefits such as performance boost over state of
the art supervised HTR. Furthermore, our generator can manipulate the resulting
text style. This allows us to change, for instance, whether the text is
cursive, or how thin is the pen stroke.
- Abstract(参考訳): 光文字認識(OCR)システムの性能はディープラーニング時代に大幅に向上した。
これは、手書きテキスト認識(HTR)において特に当てはまり、各著者は、印刷されたテキストとは異なり、そのバリエーションが設計によって小さくなる。
とはいえ、ディープラーニングベースのhtrは他のタスクと同様に、トレーニング例の数によって制限されている。
データの収集は困難でコストのかかる作業であり、さらに重要なのは、私たちがここで注目しているラベル付け作業です。
データアノテーションの負担を軽減する一つの可能なアプローチは、半教師付き学習である。
半教師付きメソッドはラベル付きデータに加えて、完全な教師付きデータに比べて性能を改善するためにラベルなしのサンプルを使用する。
これにより、テスト期間中に見えない画像に適応することができる。
ScrabbleGANは、手書きのテキストイメージを半教師付きで合成する手法で、スタイルと語彙の両方が多用できる。
ScrabbleGANは任意の長さの単語の画像を生成する新しい生成モデルに依存している。
本稿では,HTRの現状に対するパフォーマンス向上など,前述のメリットを享受しながら,半教師付き手法によるアプローチの運用方法を示す。
さらに、生成元は結果のテキストスタイルを操作できる。
これにより、例えば、テキストが曲がりくねっているか、ペンのストロークがどれくらい薄いかなど、変更できます。
関連論文リスト
- DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - GENIUS: Sketch-based Language Model Pre-training via Extreme and
Selective Masking for Text Generation and Augmentation [76.7772833556714]
本稿では,スケッチを入力として用いた条件付きテキスト生成モデルGENIUSを紹介する。
genIUSは、スケッチの目的から新しく再構築された大規模なテキストコーパスで事前訓練されている。
様々な自然言語処理(NLP)タスクに対して, GENIUS は強力かつ使いやすいデータ拡張ツールとして利用できることを示す。
論文 参考訳(メタデータ) (2022-11-18T16:39:45Z) - The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis [0.76146285961466]
STR(Scene text removal)は、自然のシーン画像からテキストを消去するタスクである。
本稿では,シンプルなかつ極めて効果的なGated Attention(GA)手法とRerea-of-Interest Generation(RoIG)手法を紹介する。
ベンチマークデータを用いた実験結果から,提案手法は既存の最先端手法よりもほぼすべての指標で有意に優れていた。
論文 参考訳(メタデータ) (2022-10-14T03:34:21Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。