Fugu-MT 論文翻訳(概要): Learning Generative Structure Prior for Blind Text Image Super-resolution

論文の概要: Learning Generative Structure Prior for Blind Text Image Super-resolution

arxiv url: http://arxiv.org/abs/2303.14726v1
Date: Sun, 26 Mar 2023 13:54:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-28 17:50:48.653353
Title: Learning Generative Structure Prior for Blind Text Image Super-resolution
Title（参考訳）: ブラインドテキスト画像の超解像化に先立つ生成構造学習
Authors: Xiaoming Li, Wangmeng Zuo, Chen Change Loy
Abstract要約: 我々は、キャラクター構造にもっと焦点をあてた小説を提示する。 StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
参考スコア（独自算出の注目度）: 153.05759524358467
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Blind text image super-resolution (SR) is challenging as one needs to cope with diverse font styles and unknown degradation. To address the problem, existing methods perform character recognition in parallel to regularize the SR task, either through a loss constraint or intermediate feature condition. Nonetheless, the high-level prior could still fail when encountering severe degradation. The problem is further compounded given characters of complex structures, e.g., Chinese characters that combine multiple pictographic or ideographic symbols into a single character. In this work, we present a novel prior that focuses more on the character structure. In particular, we learn to encapsulate rich and diverse structures in a StyleGAN and exploit such generative structure priors for restoration. To restrict the generative space of StyleGAN so that it obeys the structure of characters yet remains flexible in handling different font styles, we store the discrete features for each character in a codebook. The code subsequently drives the StyleGAN to generate high-resolution structural details to aid text SR. Compared to priors based on character recognition, the proposed structure prior exerts stronger character-specific guidance to restore faithful and precise strokes of a designated character. Extensive experiments on synthetic and real datasets demonstrate the compelling performance of the proposed generative structure prior in facilitating robust text SR.
Abstract（参考訳）: blind text image super- resolution (sr) は多様なフォントスタイルと未知の劣化に対処する必要があるため、難しい。この問題に対処するため、既存の手法は、損失制約または中間特徴条件によってSRタスクを規則化するために並列に文字認識を行う。それでも、高いレベルの事前は深刻な劣化に遭遇しても失敗する可能性がある。さらに、複数の図形記号やイデオロギー記号を一つの文字に組み合わせた漢字など、複雑な構造の文字を合成する。本研究は,キャラクター構造に焦点をあてた先行小説を提示する。特に,豊かで多様な構造をスタイルガンにカプセル化し,そのような生成的構造を復元に先立って活用することを学ぶ。 StyleGANの生成空間を制限するために、異なるフォントスタイルを扱う際に文字の構造に従わないよう、コードブックに各文字の離散的な特徴を格納する。その後、コードはStyleGANを駆動し、テキストSRを支援するために高解像度の構造の詳細を生成する。キャラクタ認識に基づく先行構造と比較して,提案手法は,指定されたキャラクタの忠実かつ正確なストロークを復元するために,より強固なキャラクタ固有の指導を行う。合成および実データ集合に関する広範囲な実験は、ロバストテキストsrの促進に先立って提案された生成構造の性能を示す。

関連論文リスト

Skeleton and Font Generation Network for Zero-shot Chinese Character Generation [53.08596064763731]
そこで我々は,より堅牢な漢字フォント生成を実現するために,新しいSkeleton and Font Generation Network (SFGN)を提案する。ミススペル文字について実験を行い、その大部分は共通文字とわずかに異なる。提案手法は、生成した画像の有効性を視覚的に実証し、現在最先端のフォント生成方法より優れていることを示す。
論文参考訳（メタデータ） (2025-01-14T12:15:49Z)
SAN: Structure-Aware Network for Complex and Long-tailed Chinese Text Recognition [9.190324058948987]
複雑な文字の認識性能を向上させるため,階層型合成情報を利用した構造認識ネットワークを提案する。実験により,提案手法は複雑な文字と尾文字の性能を大幅に向上し,全体的な性能が向上することを示した。
論文参考訳（メタデータ） (2024-11-10T07:41:00Z)
HierCode: A Lightweight Hierarchical Codebook for Zero-shot Chinese Text Recognition [47.86479271322264]
我々は,漢字の自然的階層性を利用した,新規で軽量なコードブックであるHierCodeを提案する。 HierCodeは階層的なバイナリツリーエンコーディングとプロトタイプ学習を活用して、各文字に特徴的な情報表現を生成するマルチホットエンコーディング戦略を採用している。このアプローチは、共有ラジカルと構造を利用してOOV文字のゼロショット認識を促進するだけでなく、視覚的特徴と類似性を計算することでラインレベルの認識タスクも優れている。
論文参考訳（メタデータ） (2024-03-20T17:20:48Z)
Instruction-Guided Scene Text Recognition [51.853730414264625]
本稿では、STRを命令学習問題として定式化する命令誘導シーンテキスト認識(IGTR)パラダイムを提案する。我々は,テキストイメージ理解をガイドする軽量な命令エンコーダ,クロスモーダル機能融合モジュール,マルチタスク応答ヘッドを開発した。 IGTRは、小さなモデルサイズと効率的な推論速度を維持しながら、既存のモデルをかなりの差で上回っている。
論文参考訳（メタデータ） (2024-01-31T14:13:01Z)
Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。 PromptSRは、事前訓練された言語モデル(例えば、T5やCLIP)を使用して復元を強化する。実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で優れた結果が得られることが示された。
論文参考訳（メタデータ） (2023-11-24T05:11:35Z)
VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文参考訳（メタデータ） (2023-08-27T06:32:20Z)
Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文参考訳（メタデータ） (2023-03-27T14:58:20Z)
Scene Text Image Super-Resolution via Content Perceptual Loss and Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。 Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文参考訳（メタデータ） (2022-10-13T11:48:45Z)
ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot Style Transfer Approach [7.318027179922774]
ZiGANは、強力なエンドツーエンドの漢字フォント生成フレームワークである。微粒なターゲットスタイルの文字を生成するために手動操作や冗長な前処理を一切必要としない。提案手法は,数発の漢字スタイル転送における最先端の一般化能力を有する。
論文参考訳（メタデータ） (2021-08-08T09:50:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。