論文の概要: Exploring Font-independent Features for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2009.07447v1
- Date: Wed, 16 Sep 2020 03:36:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 00:12:02.109900
- Title: Exploring Font-independent Features for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのフォント非依存機能探索
- Authors: Yizhi Wang and Zhouhui Lian
- Abstract要約: 近年,Scene Text Recognition (STR) が広く研究されている。
最近提案された多くの手法は、シーンテキストの任意の形状、レイアウト、配向に対応するよう特別に設計されている。
フォントの特徴と文字のコンテンツ特徴が絡み合っているこれらの手法は、新しいフォントスタイルのテキストを含むシーンイメージのテキスト認識において、不十分な性能を発揮する。
- 参考スコア(独自算出の注目度): 22.34023249700896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) has been extensively studied in last few years.
Many recently-proposed methods are specially designed to accommodate the
arbitrary shape, layout and orientation of scene texts, but ignoring that
various font (or writing) styles also pose severe challenges to STR. These
methods, where font features and content features of characters are tangled,
perform poorly in text recognition on scene images with texts in novel font
styles. To address this problem, we explore font-independent features of scene
texts via attentional generation of glyphs in a large number of font styles.
Specifically, we introduce trainable font embeddings to shape the font styles
of generated glyphs, with the image feature of scene text only representing its
essential patterns. The generation process is directed by the spatial attention
mechanism, which effectively copes with irregular texts and generates
higher-quality glyphs than existing image-to-image translation methods.
Experiments conducted on several STR benchmarks demonstrate the superiority of
our method compared to the state of the art.
- Abstract(参考訳): 近年,Scene Text Recognition (STR) が広く研究されている。
最近提案された多くの手法は、シーンテキストの任意の形状、レイアウト、方向を許容するように特別に設計されているが、様々なフォント(または文字)スタイルがSTRに深刻な課題をもたらすことも無視している。
フォントの特徴や文字のコンテンツ特徴が絡み合っているこれらの方法は、新しいフォントスタイルでテキストを含むシーン画像のテキスト認識が不十分である。
この問題に対処するために,多数のフォントスタイルにおけるグリフの注意深い生成を通じて,シーンテキストのフォントに依存しない特徴を探索する。
具体的には、生成したグリフのフォントスタイルを形成するためのトレーニング可能なフォント埋め込みを導入する。
生成プロセスは空間的注意機構によって指示され、不規則なテキストを効果的に処理し、既存の画像から画像への翻訳方法よりも高品質なグリフを生成する。
いくつかのSTRベンチマークで実施した実験は,本手法の最先端性を示すものである。
関連論文リスト
- Decoupling Layout from Glyph in Online Chinese Handwriting Generation [6.566541829858544]
テキスト行レイアウト生成器とスタイル化フォント合成器を開発した。
レイアウトジェネレータは、テキスト内容と提供されたスタイル参照に基づいて、コンテキスト内学習を行い、各グリフに対する位置を自己回帰的に生成する。
文字埋め込み辞書、マルチスケールの書体スタイルエンコーダ、及び1DのU-Netベースの拡散デノイザからなるフォントシンセサイザは、所定のスタイル参照から抽出された書体スタイルを模倣しつつ、その位置に各フォントを生成する。
論文 参考訳(メタデータ) (2024-10-03T08:46:17Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Deformation Robust Text Spotting with Geometric Prior [5.639053898266709]
我々は,文字の複雑な変形の認識問題を解決するために,頑健なテキストスポッティング法(DR TextSpotter)を開発した。
グラフ畳み込みネットワークは、キャラクタの特徴とランドマークの特徴を融合させ、セマンティック推論を行い、異なるキャラクタの識別を強化する。
論文 参考訳(メタデータ) (2023-08-31T02:13:15Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Weakly Supervised Scene Text Generation for Low-resource Languages [19.243705770491577]
シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。
既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。
本稿では,いくつかの認識レベルラベルを弱監督として活用する,弱教師付きシーンテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T15:26:06Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z) - Few-shot Font Generation by Learning Style Difference and Similarity [84.76381937516356]
異なるスタイルの違いと同一スタイルの類似性(DS-Font)を学習する新しいフォント生成手法を提案する。
具体的には,提案するクラスタレベルコントラシブ・スタイル(CCS)の損失により,スタイルエンコーディングを実現する多層型プロジェクタを提案する。
論文 参考訳(メタデータ) (2023-01-24T13:57:25Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - GenText: Unsupervised Artistic Text Generation via Decoupled Font and
Texture Manipulation [30.654807125764965]
我々は,汎用的な芸術的テクストスタイルの転送を実現するために,GenTextという新しいアプローチを提案する。
具体的には、スタイラス化、デスティル化、フォント転送という3つの異なる段階を取り入れています。
ペアの芸術的テキスト画像の取得が困難であることを考えると,本モデルは教師なし環境下で設計されている。
論文 参考訳(メタデータ) (2022-07-20T04:42:47Z) - Few-Shot Font Generation by Learning Fine-Grained Local Styles [90.39288370855115]
フラッシュショットフォント生成(FFG)は、いくつかの例で新しいフォントを生成することを目的としている。
提案手法は,1)参照からきめ細かな局所スタイルを学習し,2)コンテンツと参照グリフの空間的対応を学習するフォント生成手法である。
論文 参考訳(メタデータ) (2022-05-20T05:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。