論文の概要: SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text
Recognition Models
- arxiv url: http://arxiv.org/abs/2107.09313v1
- Date: Tue, 20 Jul 2021 08:03:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 14:58:16.220502
- Title: SynthTIGER: Synthetic Text Image GEneratoR Towards Better Text
Recognition Models
- Title(参考訳): SynthTIGER: より良いテキスト認識モデルに向けた合成テキストイメージGEneratoR
- Authors: Moonbin Yim, Yoonsik Kim, Han-Cheol Cho and Sungrae Park
- Abstract要約: そこで本研究では,テキスト画像合成に使用される技術を分析し,一つのアルゴリズムで有効なものを統合することによって,新しい合成テキスト画像生成装置であるSynthTIGERを提案する。
我々の実験では、SynthTIGERは合成データセットの組合せよりも優れたSTR性能を実現する。
- 参考スコア(独自算出の注目度): 9.934446907923725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For successful scene text recognition (STR) models, synthetic text image
generators have alleviated the lack of annotated text images from the real
world. Specifically, they generate multiple text images with diverse
backgrounds, font styles, and text shapes and enable STR models to learn visual
patterns that might not be accessible from manually annotated data. In this
paper, we introduce a new synthetic text image generator, SynthTIGER, by
analyzing techniques used for text image synthesis and integrating effective
ones under a single algorithm. Moreover, we propose two techniques that
alleviate the long-tail problem in length and character distributions of
training data. In our experiments, SynthTIGER achieves better STR performance
than the combination of synthetic datasets, MJSynth (MJ) and SynthText (ST).
Our ablation study demonstrates the benefits of using sub-components of
SynthTIGER and the guideline on generating synthetic text images for STR
models. Our implementation is publicly available at
https://github.com/clovaai/synthtiger.
- Abstract(参考訳): シーンテキスト認識(STR)モデルの成功のために、合成テキスト画像生成装置は、実世界の注釈付きテキスト画像の欠如を緩和した。
具体的には、さまざまな背景、フォントスタイル、テキスト形状を持つ複数のテキストイメージを生成し、STRモデルが手動で注釈付けされたデータからアクセスできない可能性のある視覚パターンを学習できるようにする。
本稿では,テキスト画像合成のための技術を分析し,単一のアルゴリズムで有効なものを統合することで,新しい合成テキスト画像生成装置synthtigerを提案する。
さらに,トレーニングデータの長さと文字分布のロングテール問題を緩和する2つの手法を提案する。
我々の実験では、SynthTIGERは合成データセット、MJSynth(MJ)およびSynthText(ST)の組み合わせよりも優れたSTR性能を実現する。
本研究はsynthtigerのサブコンポーネントとstrモデルのための合成テキスト画像生成ガイドラインを用いることの利点を示す。
実装はhttps://github.com/clovaai/synthtigerで公開しています。
関連論文リスト
- CtrlSynth: Controllable Image Text Synthesis for Data-Efficient Multimodal Learning [23.63386159778117]
我々は,データ効率とロバスト学習のためのエンファンコントロール可能な画像テキスト合成パイプラインであるCtrl Synthを設計する。
Ctrl Synthは、ユーザがカスタマイズされたコントロールポリシーを定義することで、きめ細かい方法でデータ合成を制御することができる。
Ctrl Synthは,CLIPモデルのゼロショット分類,画像テキスト検索,合成推論性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-10-15T18:06:41Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - Recurrent Affine Transformation for Text-to-image Synthesis [5.256132101498471]
既存の方法は通常、適切なテキスト情報を分離された融合ブロックで合成プロセスに適応的に融合する。
本稿では、全ての融合ブロックをリカレントニューラルネットワークに接続し、長期的依存をモデル化する、ジェネレーティブ・アドリラル・ネットワークのためのリカレントアフィン変換(RAT)を提案する。
テキスト記述は、一致する画像領域を認識して、より関連性の高い画像コンテンツを合成するためにジェネレータを監督する。
論文 参考訳(メタデータ) (2022-04-22T03:49:47Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z) - Multi-Attributed and Structured Text-to-Face Synthesis [1.3381749415517017]
Generative Adrial Networks (GAN) は、顔生成、写真編集、画像超解像などの多くの応用を通じて、画像合成に革命をもたらした。
本論文は、各テキスト記述における顔属性の増加が、より多様で現実的な顔を生成するのに役立つことを実証的に証明する。
論文 参考訳(メタデータ) (2021-08-25T07:52:21Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Efficient Neural Architecture for Text-to-Image Synthesis [6.166295570030645]
本研究では,1つのジェネレータと1つの判別器を用いた1段階の訓練により,効果的なニューラルネットワークが最先端の性能を達成することを示す。
本研究は,近年,新しいニューラルアーキテクチャの実験を行っていないテキスト・ツー・イメージ研究の新たな方向性を指摘する。
論文 参考訳(メタデータ) (2020-04-23T19:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。