論文の概要: Learning Generative Structure Prior for Blind Text Image
Super-resolution
- arxiv url: http://arxiv.org/abs/2303.14726v1
- Date: Sun, 26 Mar 2023 13:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:50:48.653353
- Title: Learning Generative Structure Prior for Blind Text Image
Super-resolution
- Title(参考訳): ブラインドテキスト画像の超解像化に先立つ生成構造学習
- Authors: Xiaoming Li, Wangmeng Zuo, Chen Change Loy
- Abstract要約: 我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
- 参考スコア(独自算出の注目度): 153.05759524358467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Blind text image super-resolution (SR) is challenging as one needs to cope
with diverse font styles and unknown degradation. To address the problem,
existing methods perform character recognition in parallel to regularize the SR
task, either through a loss constraint or intermediate feature condition.
Nonetheless, the high-level prior could still fail when encountering severe
degradation. The problem is further compounded given characters of complex
structures, e.g., Chinese characters that combine multiple pictographic or
ideographic symbols into a single character. In this work, we present a novel
prior that focuses more on the character structure. In particular, we learn to
encapsulate rich and diverse structures in a StyleGAN and exploit such
generative structure priors for restoration. To restrict the generative space
of StyleGAN so that it obeys the structure of characters yet remains flexible
in handling different font styles, we store the discrete features for each
character in a codebook. The code subsequently drives the StyleGAN to generate
high-resolution structural details to aid text SR. Compared to priors based on
character recognition, the proposed structure prior exerts stronger
character-specific guidance to restore faithful and precise strokes of a
designated character. Extensive experiments on synthetic and real datasets
demonstrate the compelling performance of the proposed generative structure
prior in facilitating robust text SR.
- Abstract(参考訳): blind text image super- resolution (sr) は多様なフォントスタイルと未知の劣化に対処する必要があるため、難しい。
この問題に対処するため、既存の手法は、損失制約または中間特徴条件によってSRタスクを規則化するために並列に文字認識を行う。
それでも、高いレベルの事前は深刻な劣化に遭遇しても失敗する可能性がある。
さらに、複数の図形記号やイデオロギー記号を一つの文字に組み合わせた漢字など、複雑な構造の文字を合成する。
本研究は,キャラクター構造に焦点をあてた先行小説を提示する。
特に,豊かで多様な構造をスタイルガンにカプセル化し,そのような生成的構造を復元に先立って活用することを学ぶ。
StyleGANの生成空間を制限するために、異なるフォントスタイルを扱う際に文字の構造に従わないよう、コードブックに各文字の離散的な特徴を格納する。
その後、コードはStyleGANを駆動し、テキストSRを支援するために高解像度の構造の詳細を生成する。
キャラクタ認識に基づく先行構造と比較して,提案手法は,指定されたキャラクタの忠実かつ正確なストロークを復元するために,より強固なキャラクタ固有の指導を行う。
合成および実データ集合に関する広範囲な実験は、ロバストテキストsrの促進に先立って提案された生成構造の性能を示す。
関連論文リスト
- SAN: Structure-Aware Network for Complex and Long-tailed Chinese Text Recognition [9.190324058948987]
複雑な文字の認識性能を向上させるため,階層型合成情報を利用した構造認識ネットワークを提案する。
実験により,提案手法は複雑な文字と尾文字の性能を大幅に向上し,全体的な性能が向上することを示した。
論文 参考訳(メタデータ) (2024-11-10T07:41:00Z) - HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition [47.86479271322264]
我々は,漢字の自然的階層性を利用した,新規で軽量なコードブックであるHierCodeを提案する。
HierCodeは階層的なバイナリツリーエンコーディングとプロトタイプ学習を活用して、各文字に特徴的な情報表現を生成するマルチホットエンコーディング戦略を採用している。
このアプローチは、共有ラジカルと構造を利用してOOV文字のゼロショット認識を促進するだけでなく、視覚的特徴と類似性を計算することでラインレベルの認識タスクも優れている。
論文 参考訳(メタデータ) (2024-03-20T17:20:48Z) - Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。
我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。
IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文 参考訳(メタデータ) (2024-01-31T14:13:01Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、事前訓練された言語モデル(例えば、T5やCLIP)を使用して復元を強化する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot
Style Transfer Approach [7.318027179922774]
ZiGANは、強力なエンドツーエンドの漢字フォント生成フレームワークである。
微粒なターゲットスタイルの文字を生成するために手動操作や冗長な前処理を一切必要としない。
提案手法は,数発の漢字スタイル転送における最先端の一般化能力を有する。
論文 参考訳(メタデータ) (2021-08-08T09:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。