Fugu-MT 論文翻訳(概要): Improving Handwritten OCR with Training Samples Generated by Glyph Conditional Denoising Diffusion Probabilistic Model

論文の概要: Improving Handwritten OCR with Training Samples Generated by Glyph Conditional Denoising Diffusion Probabilistic Model

arxiv url: http://arxiv.org/abs/2305.19543v1
Date: Wed, 31 May 2023 04:18:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-01 18:39:01.661217
Title: Improving Handwritten OCR with Training Samples Generated by Glyph Conditional Denoising Diffusion Probabilistic Model
Title（参考訳）: glyph conditional denoising diffusion probabilistic modelによる学習サンプルによる手書きocrの改善
Authors: Haisong Ding, Bozhi Luan, Dongnan Gui, Kai Chen, Qiang Huo
Abstract要約: トレーニングサンプルを生成するための拡散確率モデル(DDPM)を提案する。このモデルは、印刷された文字と手書き画像のマッピングを作成する。合成画像は、必ずしもグリフ条件付き画像と一致しない。本稿では,これらのサンプルをトレーニングセットに高い信頼性で付加するプログレッシブデータフィルタリング手法を提案する。
参考スコア（独自算出の注目度）: 10.239782333441031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Constructing a highly accurate handwritten OCR system requires large amounts of representative training data, which is both time-consuming and expensive to collect. To mitigate the issue, we propose a denoising diffusion probabilistic model (DDPM) to generate training samples. This model conditions on a printed glyph image and creates mappings between printed characters and handwritten images, thus enabling the generation of photo-realistic handwritten samples with diverse styles and unseen text contents. However, the text contents in synthetic images are not always consistent with the glyph conditional images, leading to unreliable labels of synthetic samples. To address this issue, we further propose a progressive data filtering strategy to add those samples with a high confidence of correctness to the training set. Experimental results on IAM benchmark task show that OCR model trained with augmented DDPM-synthesized training samples can achieve about 45% relative word error rate reduction compared with the one trained on real data only.
Abstract（参考訳）: 高精度な手書きOCRシステムを構築するには、大量の代表訓練データが必要である。この問題を緩和するために,実験サンプルを生成するための拡散確率モデル(DDPM)を提案する。このモデル条件を印刷グリフ画像上で作成し、印刷文字と手書き画像のマッピングを作成することにより、多様なスタイルや見当たらないテキスト内容のフォトリアリスティックな手書きサンプルを生成することができる。しかし、合成画像中のテキストの内容は必ずしもグリフ条件の画像と一致していないため、合成サンプルの信頼できないラベルが生じる。この問題に対処するために,我々はさらに,これらのサンプルをトレーニングセットに高い正確性で付加するプログレッシブデータフィルタリング戦略を提案する。 IAMベンチマークタスクの実験結果から,拡張DDPM合成トレーニングサンプルを用いてトレーニングしたOCRモデルは,実データにのみトレーニングしたOCRモデルと比較して,約45%の単語誤り率の低減を達成できることがわかった。

関連論文リスト

Leveraging Text-to-Image Generation for Handling Spurious Correlation [24.940576844328408]
経験的リスク最小化(ERM)でトレーニングされたディープニューラルネットワークは、トレーニングとテストの両方が同じドメインからやってくると、うまく機能する。 ERMモデルは、ラベルと画像の無関係な特徴の間にしばしば存在する急激な相関に頼り、それらの特徴が存在しないと予測できない。本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルを用いたトレーニングサンプルの生成手法を提案する。
論文参考訳（メタデータ） (2025-03-21T15:28:22Z)
Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文参考訳（メタデータ） (2024-11-23T15:24:47Z)
Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
CPSample: Classifier Protected Sampling for Guarding Training Data During Diffusion [58.64822817224639]
拡散モデルはトレーニングデータを正確に再現する傾向がある。 CPSampleは,画像品質を保ちながら,トレーニングデータの複製を防止するためにサンプリングプロセスを変更する手法である。 CPSample は CIFAR-10 と CelebA-64 でそれぞれ 4.97 と 2.97 の FID スコアを達成している。
論文参考訳（メタデータ） (2024-09-11T05:42:01Z)
UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文参考訳（メタデータ） (2023-12-08T07:47:46Z)
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。 Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文参考訳（メタデータ） (2023-08-16T15:19:52Z)
Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-07-17T14:38:11Z)
Zero-shot Generation of Training Data with Denoising Diffusion Probabilistic Model for Handwritten Chinese Character Recognition [11.186226578337125]
中国語には8万種類以上あるが、ほとんど使われていない。高性能な手書き文字認識システムを構築するためには,文字カテゴリ毎に多数のトレーニングサンプルを収集する必要がある。フォントライブラリから生成した漢字グリフ画像を手書き文字に変換する新しい手法を提案する。
論文参考訳（メタデータ） (2023-05-25T02:13:37Z)
Text-Conditioned Sampling Framework for Text-to-Image Generation with Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。 TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文参考訳（メタデータ） (2023-04-04T03:52:49Z)
Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。 i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文参考訳（メタデータ） (2023-03-30T05:25:20Z)
Self-Training of Handwritten Word Recognition for Synthetic-to-Real Adaptation [4.111899441919165]
そこで本研究では,手書きテキスト認識モデルを学習するための自己学習手法を提案する。提案手法は、合成データに基づいて訓練された初期モデルを用いて、ラベルなしターゲットデータセットの予測を行う。提案手法は,広範に使用されている4つのベンチマークデータセットに対して評価し,完全に教師された方法で訓練されたモデルとのギャップを埋めることの有効性を示す。
論文参考訳（メタデータ） (2022-06-07T09:43:25Z)
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文参考訳（メタデータ） (2021-12-20T18:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。