論文の概要: GLYPH-SR: Can We Achieve Both High-Quality Image Super-Resolution and High-Fidelity Text Recovery via VLM-guided Latent Diffusion Model?
- arxiv url: http://arxiv.org/abs/2510.26339v1
- Date: Thu, 30 Oct 2025 10:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.761155
- Title: GLYPH-SR: Can We Achieve Both High-Quality Image Super-Resolution and High-Fidelity Text Recovery via VLM-guided Latent Diffusion Model?
- Title(参考訳): GLYPH-SR:VLM誘導遅延拡散モデルによる高画質画像超解像と高忠実テキスト復元の両立が可能であるか?
- Authors: Mingyu Sung, Seungjae Ham, Kangwoo Kim, Yeokyoung Yoon, Sangseok Yun, Il-Min Kim, Jae-Mo Kang,
- Abstract要約: シーンテキスト(Scene-text)、すなわち、サイン、製品ラベル、店頭などの自然画像に埋め込まれたテキストは、しばしば最も実行可能な情報を運ぶ。
GLYPH-SRは、OCRデータでガイドされるText-SR Fusion ControlNet(TS-ControlNet)と、テキスト中心とシーン中心のガイダンスを交互に切り替えるピンポンスケジューラを使用している。
- 参考スコア(独自算出の注目度): 6.601720172018393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image super-resolution(SR) is fundamental to many vision system-from surveillance and autonomy to document analysis and retail analytics-because recovering high-frequency details, especially scene-text, enables reliable downstream perception. Scene-text, i.e., text embedded in natural images such as signs, product labels, and storefronts, often carries the most actionable information; when characters are blurred or hallucinated, optical character recognition(OCR) and subsequent decisions fail even if the rest of the image appears sharp. Yet previous SR research has often been tuned to distortion (PSNR/SSIM) or learned perceptual metrics (LIPIS, MANIQA, CLIP-IQA, MUSIQ) that are largely insensitive to character-level errors. Furthermore, studies that do address text SR often focus on simplified benchmarks with isolated characters, overlooking the challenges of text within complex natural scenes. As a result, scene-text is effectively treated as generic texture. For SR to be effective in practical deployments, it is therefore essential to explicitly optimize for both text legibility and perceptual quality. We present GLYPH-SR, a vision-language-guided diffusion framework that aims to achieve both objectives jointly. GLYPH-SR utilizes a Text-SR Fusion ControlNet(TS-ControlNet) guided by OCR data, and a ping-pong scheduler that alternates between text- and scene-centric guidance. To enable targeted text restoration, we train these components on a synthetic corpus while keeping the main SR branch frozen. Across SVT, SCUT-CTW1500, and CUTE80 at x4, and x8, GLYPH-SR improves OCR F1 by up to +15.18 percentage points over diffusion/GAN baseline (SVT x8, OpenOCR) while maintaining competitive MANIQA, CLIP-IQA, and MUSIQ. GLYPH-SR is designed to satisfy both objectives simultaneously-high readability and high visual realism-delivering SR that looks right and reds right.
- Abstract(参考訳): 画像超解像(SR)は、監視や自律性から、文書分析や小売分析まで、多くのビジョンシステムに欠かせない。
シーンテキスト(Scene-text)、すなわち、サイン、製品ラベル、店頭などの自然画像に埋め込まれたテキストは、しばしば最も動作可能な情報を持ち、文字がぼやけたり幻覚されたりした場合、光学文字認識(OCR)とその後の決定は、画像の残りの部分がシャープに見えても失敗する。
しかし、以前のSR研究は、しばしば、文字レベルの誤りにほとんど敏感な歪み(PSNR/SSIM)や学習された知覚メトリクス(LIPIS、MANIQA、CLIP-IQA、MUSIQ)に調整されている。
さらに、テキストSRに対処する研究は、複雑な自然のシーンにおけるテキストの課題を見越して、孤立した文字による単純化されたベンチマークに焦点を当てることが多い。
その結果、シーンテキストはジェネリックテクスチャとして効果的に扱われる。
SRが実用的な展開に有効であるためには、テキストの可読性と知覚品質の両方を明示的に最適化することが不可欠である。
GLYPH-SRは、両目的を共同で達成することを目的とした、視覚言語誘導拡散フレームワークである。
GLYPH-SRは、OCRデータでガイドされるText-SR Fusion ControlNet(TS-ControlNet)と、テキスト中心とシーン中心のガイダンスを交互に切り替えるピンポンスケジューラを使用している。
ターゲットとなるテキストの復元を可能にするため,主SR分岐を凍結したまま合成コーパス上でこれらのコンポーネントを訓練する。
SVT、SCUT-CTW1500、CUTE80、x4、x8において、GLYPH-SRは、競合するMANIQA、CLIP-IQA、MUSIQを維持しながら、拡散/GANベースライン(SVT x8、OpenOCR)よりも最大で+15.18ポイントOCR F1を改善する。
GLYPH-SRは、高可読性と高可視性の両方を同時に満たすように設計されている。
関連論文リスト
- PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution [18.936806519546508]
シーンテキスト画像スーパーレゾリューション(STISR)は,低解像度のシーンテキスト画像の解像度と可読性を同時に向上することを目的としている。
シーンテキスト画像の視覚構造と意味情報の2つの要因が認識性能に大きな影響を及ぼす。
本稿では,これらの要因による影響を軽減するために,事前注意ネットワーク(PEAN)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:11:20Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Scene Text Image Super-resolution based on Text-conditional Diffusion
Models [0.0]
シーンテキスト画像スーパーレゾリューション(STISR)は,シーンテキスト認識のための前処理手法として最近大きな成功を収めている。
本研究では,テキスト条件拡散モデル(DM)をSTISRタスクに適用する。
LR-HRペアテキスト画像データセットのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T10:32:18Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。