論文の概要: Boosting Diffusion-Based Text Image Super-Resolution Model Towards Generalized Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2503.07232v2
- Date: Tue, 11 Mar 2025 06:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 12:20:17.557983
- Title: Boosting Diffusion-Based Text Image Super-Resolution Model Towards Generalized Real-World Scenarios
- Title(参考訳): 一般化実世界シナリオに向けた拡散型テキスト画像超解法モデルの構築
- Authors: Chenglu Pan, Xiaogang Xu, Ganggui Ding, Yunke Zhang, Wenbo Li, Jiarong Xu, Qingbiao Wu,
- Abstract要約: テキスト画像超解像(SR)の拡散モデルの一般化能力向上を目的とした新しいフレームワークを提案する。
本稿では,様々な訓練段階における多様な画像型を取り入れ,収束を安定化し,一般化を改善するプログレッシブなデータサンプリング戦略を提案する。
実世界のデータセットを用いた実験により、我々のアプローチはよりリアルな視覚的外観を持つテキスト画像を生成するだけでなく、テキスト構造の精度も向上することが示された。
- 参考スコア(独自算出の注目度): 30.800865323585377
- License:
- Abstract: Restoring low-resolution text images presents a significant challenge, as it requires maintaining both the fidelity and stylistic realism of the text in restored images. Existing text image restoration methods often fall short in hard situations, as the traditional super-resolution models cannot guarantee clarity, while diffusion-based methods fail to maintain fidelity. In this paper, we introduce a novel framework aimed at improving the generalization ability of diffusion models for text image super-resolution (SR), especially promoting fidelity. First, we propose a progressive data sampling strategy that incorporates diverse image types at different stages of training, stabilizing the convergence and improving the generalization. For the network architecture, we leverage a pre-trained SR prior to provide robust spatial reasoning capabilities, enhancing the model's ability to preserve textual information. Additionally, we employ a cross-attention mechanism to better integrate textual priors. To further reduce errors in textual priors, we utilize confidence scores to dynamically adjust the importance of textual features during training. Extensive experiments on real-world datasets demonstrate that our approach not only produces text images with more realistic visual appearances but also improves the accuracy of text structure.
- Abstract(参考訳): 低解像度のテキスト画像の復元は、復元された画像におけるテキストの忠実さとスタイリスティックなリアリズムの両方を維持する必要があるため、大きな課題となる。
既存のテキスト画像復元法は、従来の超解像モデルでは明快さを保証できないが、拡散法では忠実さを維持できないため、難しい状況でしばしば失敗する。
本稿では,テキスト画像超解像(SR)の拡散モデルの一般化能力向上を目的とした新しいフレームワークを提案する。
まず,多様な画像型をトレーニングの異なる段階に組み込んで,収束の安定化と一般化の促進を図る,プログレッシブなデータサンプリング戦略を提案する。
ネットワークアーキテクチャでは、事前訓練されたSRを利用して、堅牢な空間推論機能を提供し、テキスト情報の保存能力を高める。
さらに、テキストの事前処理をよりうまく統合するために、クロスアテンションメカニズムを使用します。
テキスト先行の誤りをさらに軽減するために,信頼度スコアを用いてトレーニング中のテキスト特徴の重要性を動的に調整する。
実世界のデータセットに対する大規模な実験により、我々のアプローチはより現実的な視覚的外観を持つテキスト画像を生成するだけでなく、テキスト構造の精度も向上することが示された。
関連論文リスト
- CLIP-SR: Collaborative Linguistic and Image Processing for Super-Resolution [21.843398350371867]
畳み込みニューラルネットワーク(CNN)は高度な画像超解像(SR)を持つ
ほとんどのCNNベースのメソッドはピクセルベースの変換のみに依存しており、アーティファクトやぼやけにつながっている。
テキストのセマンティックスと視覚的特徴を組み合わせたマルチモーダルなセマンティックエンハンスメント手法を提案する。
論文 参考訳(メタデータ) (2024-12-16T09:50:09Z) - Beyond Pixels: Text Enhances Generalization in Real-World Image Restoration [47.942948541067544]
拡散に基づく復元モデルの生成能力を再活性化するために,テキストを補助的不変表現として用いることを提案する。
Res-Captionerは、画像の内容や劣化レベルに合わせて拡張されたテキスト記述を生成するモジュールである。
様々な現実世界のシナリオを捉えるために設計された新しいベンチマークであるRealIRを提示する。
論文 参考訳(メタデータ) (2024-12-01T16:36:22Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace [52.24866347353916]
本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
論文 参考訳(メタデータ) (2024-06-30T06:41:21Z) - DaLPSR: Leverage Degradation-Aligned Language Prompt for Real-World Image Super-Resolution [19.33582308829547]
本稿では, 精度, 精細度, 高忠実度画像復元のために, 劣化対応言語プロンプトを活用することを提案する。
提案手法は,新しい最先端の知覚品質レベルを実現する。
論文 参考訳(メタデータ) (2024-06-24T09:30:36Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Diffusion-based Blind Text Image Super-Resolution [20.91578221617732]
リアルなスタイルでテキストイメージを復元する画像拡散モデル(IDM)を提案する。
拡散モデルでは、現実的な画像分布をモデル化するだけでなく、テキスト分布の学習にも適している。
テキスト認識のためのテキスト拡散モデル(TDM)も提案する。
論文 参考訳(メタデータ) (2023-12-13T06:03:17Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。