論文の概要: Enhanced Generative Structure Prior for Chinese Text Image Super-resolution
- arxiv url: http://arxiv.org/abs/2508.07537v1
- Date: Mon, 11 Aug 2025 01:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.902205
- Title: Enhanced Generative Structure Prior for Chinese Text Image Super-resolution
- Title(参考訳): 中国語テキスト画像の超解像化に先立つ生成構造の向上
- Authors: Xiaoming Li, Wangmeng Zuo, Chen Change Loy,
- Abstract要約: 低解像度(LR)漢字の正確なストロークを復元するためのテキスト画像フレームワークを提案する。
われわれのフレームワークはこの構造をStyleGANモデルに組み込む。
私たちのコードと事前トレーニングされたモデルは、https://github.com/csi2016/MARCONetPlus.comで公開されます。
- 参考スコア(独自算出の注目度): 101.66745917380837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Faithful text image super-resolution (SR) is challenging because each character has a unique structure and usually exhibits diverse font styles and layouts. While existing methods primarily focus on English text, less attention has been paid to more complex scripts like Chinese. In this paper, we introduce a high-quality text image SR framework designed to restore the precise strokes of low-resolution (LR) Chinese characters. Unlike methods that rely on character recognition priors to regularize the SR task, we propose a novel structure prior that offers structure-level guidance to enhance visual quality. Our framework incorporates this structure prior within a StyleGAN model, leveraging its generative capabilities for restoration. To maintain the integrity of character structures while accommodating various font styles and layouts, we implement a codebook-based mechanism that restricts the generative space of StyleGAN. Each code in the codebook represents the structure of a specific character, while the vector $w$ in StyleGAN controls the character's style, including typeface, orientation, and location. Through the collaborative interaction between the codebook and style, we generate a high-resolution structure prior that aligns with LR characters both spatially and structurally. Experiments demonstrate that this structure prior provides robust, character-specific guidance, enabling the accurate restoration of clear strokes in degraded characters, even for real-world LR Chinese text with irregular layouts. Our code and pre-trained models will be available at https://github.com/csxmli2016/MARCONetPlusPlus
- Abstract(参考訳): 忠実なテキスト画像の超解像(SR)は、各文字が固有の構造を持ち、通常多様なフォントスタイルとレイアウトを示すため、難しい。
既存の手法は主に英語のテキストに焦点を当てているが、中国語のようなより複雑なスクリプトには注意が払われていない。
本稿では,低解像度(LR)漢字の高精度ストロークを復元するための高品質なテキスト画像SRフレームワークを提案する。
SRタスクを正規化するために文字認識に先行する手法とは異なり、視覚的品質を高めるための構造レベルのガイダンスを提供する新しい構造を事前に提案する。
本フレームワークでは, この構造をStyleGANモデルに組み込んで, 復元のための生成機能を活用している。
フォントのスタイルやレイアウトを調整しながら文字構造の整合性を維持するために,StyleGANの生成空間を制限するコードブックベースの機構を実装した。
コードブック内の各コードは、特定の文字の構造を表し、StyleGANの$w$は、フォント、向き、位置を含む文字のスタイルを制御する。
コードブックとスタイルの協調的相互作用により、LR文字を空間的にも構造的にも一致させる高解像度構造を事前に生成する。
実験では、この構造が以前に頑健で文字固有のガイダンスを提供しており、不規則なレイアウトを持つ現実世界のLR漢文であっても、劣化文字のクリアストロークを正確に復元できることを示した。
私たちのコードと事前トレーニングされたモデルはhttps://github.com/csxmli2016/MARCONetPlusPlusで利用可能になります。
関連論文リスト
- Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。
コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。
提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文 参考訳(メタデータ) (2025-05-30T17:39:14Z) - GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文 参考訳(メタデータ) (2025-05-08T03:11:58Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - A Benchmark for Chinese-English Scene Text Image Super-resolution [15.042152725255171]
Scene Text Image Super- resolution (STISR) は、低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。
現存する作品の多くは、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いている。
我々は,STISRのタスクに対して,実世界の中国語と英語のベンチマークデータセットであるReal-CEを提案する。
論文 参考訳(メタデータ) (2023-08-07T02:57:48Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。