論文の概要: Learning Generative Structure Prior for Blind Text Image
Super-resolution
- arxiv url: http://arxiv.org/abs/2303.14726v1
- Date: Sun, 26 Mar 2023 13:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:50:48.653353
- Title: Learning Generative Structure Prior for Blind Text Image
Super-resolution
- Title(参考訳): ブラインドテキスト画像の超解像化に先立つ生成構造学習
- Authors: Xiaoming Li, Wangmeng Zuo, Chen Change Loy
- Abstract要約: 我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
- 参考スコア(独自算出の注目度): 153.05759524358467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blind text image super-resolution (SR) is challenging as one needs to cope
with diverse font styles and unknown degradation. To address the problem,
existing methods perform character recognition in parallel to regularize the SR
task, either through a loss constraint or intermediate feature condition.
Nonetheless, the high-level prior could still fail when encountering severe
degradation. The problem is further compounded given characters of complex
structures, e.g., Chinese characters that combine multiple pictographic or
ideographic symbols into a single character. In this work, we present a novel
prior that focuses more on the character structure. In particular, we learn to
encapsulate rich and diverse structures in a StyleGAN and exploit such
generative structure priors for restoration. To restrict the generative space
of StyleGAN so that it obeys the structure of characters yet remains flexible
in handling different font styles, we store the discrete features for each
character in a codebook. The code subsequently drives the StyleGAN to generate
high-resolution structural details to aid text SR. Compared to priors based on
character recognition, the proposed structure prior exerts stronger
character-specific guidance to restore faithful and precise strokes of a
designated character. Extensive experiments on synthetic and real datasets
demonstrate the compelling performance of the proposed generative structure
prior in facilitating robust text SR.
- Abstract(参考訳): blind text image super- resolution (sr) は多様なフォントスタイルと未知の劣化に対処する必要があるため、難しい。
この問題に対処するため、既存の手法は、損失制約または中間特徴条件によってSRタスクを規則化するために並列に文字認識を行う。
それでも、高いレベルの事前は深刻な劣化に遭遇しても失敗する可能性がある。
さらに、複数の図形記号やイデオロギー記号を一つの文字に組み合わせた漢字など、複雑な構造の文字を合成する。
本研究は,キャラクター構造に焦点をあてた先行小説を提示する。
特に,豊かで多様な構造をスタイルガンにカプセル化し,そのような生成的構造を復元に先立って活用することを学ぶ。
StyleGANの生成空間を制限するために、異なるフォントスタイルを扱う際に文字の構造に従わないよう、コードブックに各文字の離散的な特徴を格納する。
その後、コードはStyleGANを駆動し、テキストSRを支援するために高解像度の構造の詳細を生成する。
キャラクタ認識に基づく先行構造と比較して,提案手法は,指定されたキャラクタの忠実かつ正確なストロークを復元するために,より強固なキャラクタ固有の指導を行う。
合成および実データ集合に関する広範囲な実験は、ロバストテキストsrの促進に先立って提案された生成構造の性能を示す。
関連論文リスト
- Image Super-Resolution with Text Prompt Diffusion [123.94190649199449]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、事前訓練された言語モデル(例えば、T5やCLIP)を使用して復元を強化する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution [31.88960656995447]
テキスト画像中の文字のストロークレベルの内部構造に焦点を合わせるために,Stroke-Aware Scene Text Image Super-Resolution法を提案する。
具体的には、英語の文字と数字をストロークレベルに分解するためのルールを設計し、テキスト認識器を事前訓練して、ストロークレベルのアテンションマップを位置的手がかりとして提供する。
提案手法は,TextZoomと手作業で構築した漢字データセットDegraded-IC13上で,より区別可能な画像を生成することができる。
論文 参考訳(メタデータ) (2021-12-13T15:26:10Z) - ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot
Style Transfer Approach [7.318027179922774]
ZiGANは、強力なエンドツーエンドの漢字フォント生成フレームワークである。
微粒なターゲットスタイルの文字を生成するために手動操作や冗長な前処理を一切必要としない。
提案手法は,数発の漢字スタイル転送における最先端の一般化能力を有する。
論文 参考訳(メタデータ) (2021-08-08T09:50:20Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。