論文の概要: Restore Text First, Enhance Image Later: Two-Stage Scene Text Image Super-Resolution with Glyph Structure Guidance
- arxiv url: http://arxiv.org/abs/2510.21590v1
- Date: Fri, 24 Oct 2025 15:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.530781
- Title: Restore Text First, Enhance Image Later: Two-Stage Scene Text Image Super-Resolution with Glyph Structure Guidance
- Title(参考訳): Restore Text First, Enhance Image Later: 2段階のScene Text Image Super-Resolution with Glyph Structure Guidance
- Authors: Minxing Luo, Linlong Fan, Wang Qiushi, Ge Wu, Yiyan Luo, Yuhang Yu, Jinwei Chen, Yaxing Wang, Qingnan Fan, Jian Yang,
- Abstract要約: 生成超解像法は、自然な画像に対して強い性能を示すが、歪んだテキストを示す。
textbfText-textbfImage textbfGuided suptextbfEr-textbfResolution)を導入する。
最初は正確なテキスト構造を再構築し、次にフルイメージの超解像を導出する。
- 参考スコア(独自算出の注目度): 26.26467179820939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current generative super-resolution methods show strong performance on natural images but distort text, creating a fundamental trade-off between image quality and textual readability. To address this, we introduce \textbf{TIGER} (\textbf{T}ext-\textbf{I}mage \textbf{G}uided sup\textbf{E}r-\textbf{R}esolution), a novel two-stage framework that breaks this trade-off through a \textit{"text-first, image-later"} paradigm. \textbf{TIGER} explicitly decouples glyph restoration from image enhancement: it first reconstructs precise text structures and then uses them to guide subsequent full-image super-resolution. This glyph-to-image guidance ensures both high fidelity and visual consistency. To support comprehensive training and evaluation, we also contribute the \textbf{UltraZoom-ST} (UltraZoom-Scene Text), the first scene text dataset with extreme zoom (\textbf{$\times$14.29}). Extensive experiments show that \textbf{TIGER} achieves \textbf{state-of-the-art} performance, enhancing readability while preserving overall image quality.
- Abstract(参考訳): 現在の生成超解像法は、自然な画像に対して強い性能を示すが、歪んだテキストは、画像の品質とテキストの可読性の間に根本的なトレードオフをもたらす。
これを解決するために、新しい2段階フレームワークである \textbf{TIGER} (\textbf{T}ext-\textbf{I}mage \textbf{G}uided sup\textbf{E}r-\textbf{R}esolution)を紹介する。
画像強調からグリフ復元を明示的に切り離し、まず正確なテキスト構造を再構築し、次にフルイメージのスーパーレゾリューションをガイドするために使用する。
このグリフ・ツー・イメージのガイダンスは、高い忠実度と視覚的一貫性の両方を保証する。
総合的なトレーニングと評価をサポートするため、極端なズームを備えた最初のシーンテキストデータセットである \textbf{UltraZoom-ST} (UltraZoom-Scene Text) も寄贈する(\textbf{$\times$14.29})。
拡張実験により, 画像の全体的な品質を保ちながら, 可読性を向上し, \textbf{TIGER} が \textbf{state-of-the-art} 性能を達成することが示された。
関連論文リスト
- TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering [76.53315206999231]
TextPeckerは、プラグアンドプレイで構造的異常を知覚するRL戦略である。
ノイズの多い報酬信号を緩和し、任意のテキスト・イメージ・ジェネレータで動作する。
構造的忠実度の平均利得は4%、意味的アライメントは8.7%である。
論文 参考訳(メタデータ) (2026-02-24T13:40:23Z) - Let's Roll a BiFTA: Bi-refinement for Fine-grained Text-visual Alignment in Vision-Language Models [28.42306540452353]
微細なテキスト記述や局所的な画像パッチは冗長な情報を含むことが多く、テキスト・視覚的アライメントがより効果的になる。
BiFTAは、ViTベースのCLIPデータセットとResNetベースのCLIPデータセットの両方で、6つのベンチマークで優れたゼロショットパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-28T09:24:14Z) - TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。
具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。
テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文 参考訳(メタデータ) (2025-12-10T06:18:30Z) - Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。
我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。
Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文 参考訳(メタデータ) (2025-08-04T11:49:20Z) - UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis [38.658170067715965]
画素レベルの視覚テキストマスクを統一された条件入力として用いるセグメンテーション誘導フレームワークを提案する。
提案手法は,AnyTextベンチマークの最先端性能を実現する。
レイアウトテストのためのGlyphMM-benchmarkと、小規模テキスト領域における生成品質の評価のためのMiniText-benchmarkの2つの新しいベンチマークも導入した。
論文 参考訳(メタデータ) (2025-07-01T17:42:19Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - Hypertext Entity Extraction in Webpage [112.56734676713721]
textbfMoE ベースの textbfEntity textbfExtraction textbfFramework (textitMoEEF) を導入する。
また、textitHEEDにおけるハイパーテキスト機能の有効性と、textitMoEEFにおけるモデルコンポーネントについて分析する。
論文 参考訳(メタデータ) (2024-03-04T03:21:40Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image Super-Resolution [17.95994419104427]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis [12.954663420736782]
本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。
FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-02-17T05:44:05Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。