論文の概要: Diffusion-based Blind Text Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2312.08886v2
- Date: Sun, 3 Mar 2024 08:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:21:07.310762
- Title: Diffusion-based Blind Text Image Super-Resolution
- Title(参考訳): 拡散に基づくブラインドテキスト画像の超解像
- Authors: Yuzhe Zhang, Jiawei Zhang, Hao Li, Zhouxia Wang, Luwei Hou, Dongqing
Zou, Liheng Bian
- Abstract要約: リアルなスタイルでテキストイメージを復元する画像拡散モデル(IDM)を提案する。
拡散モデルでは、現実的な画像分布をモデル化するだけでなく、テキスト分布の学習にも適している。
テキスト認識のためのテキスト拡散モデル(TDM)も提案する。
- 参考スコア(独自算出の注目度): 20.91578221617732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering degraded low-resolution text images is challenging, especially for
Chinese text images with complex strokes and severe degradation in real-world
scenarios. Ensuring both text fidelity and style realness is crucial for
high-quality text image super-resolution. Recently, diffusion models have
achieved great success in natural image synthesis and restoration due to their
powerful data distribution modeling abilities and data generation capabilities.
In this work, we propose an Image Diffusion Model (IDM) to restore text images
with realistic styles. For diffusion models, they are not only suitable for
modeling realistic image distribution but also appropriate for learning text
distribution. Since text prior is important to guarantee the correctness of the
restored text structure according to existing arts, we also propose a Text
Diffusion Model (TDM) for text recognition which can guide IDM to generate text
images with correct structures. We further propose a Mixture of Multi-modality
module (MoM) to make these two diffusion models cooperate with each other in
all the diffusion steps. Extensive experiments on synthetic and real-world
datasets demonstrate that our Diffusion-based Blind Text Image Super-Resolution
(DiffTSR) can restore text images with more accurate text structures as well as
more realistic appearances simultaneously.
- Abstract(参考訳): 劣化した低解像度のテキスト画像の復元は、特に複雑なストロークと現実世界のシナリオの深刻な劣化を伴う中国語のテキスト画像では困難である。
高品質なテキスト画像の超高解像度化には,テキスト忠実性とスタイル現実性の両方を保証することが不可欠である。
近年の拡散モデルは、強力なデータ分散モデリング能力とデータ生成能力により、自然画像合成と復元において大きな成功を収めている。
本研究では,現実的なスタイルでテキストイメージを復元する画像拡散モデル(IDM)を提案する。
拡散モデルでは、現実的な画像分布のモデル化だけでなく、テキスト分布の学習にも適している。
そこで本研究では,テキスト認識のためのテキスト拡散モデル(TDM)を提案する。
さらに,これら2つの拡散モデルがすべての拡散ステップで相互に協調するマルチモダリティモジュール(mom)の混合を提案する。
合成および実世界のデータセットに関する大規模な実験により、我々の拡散に基づくBlind Text Image Super-Resolution (DiffTSR)は、より正確なテキスト構造とより現実的な外観でテキストイメージを復元できることを示した。
関連論文リスト
- ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - Text Image Inpainting via Global Structure-Guided Diffusion Models [22.859984320894135]
現実世界のテキストは、環境や人為的な要因によって引き起こされる腐食問題によって損傷を受けることがある。
現在の塗装技術は、しばしばこの問題に適切に対処するのに失敗する。
我々は,新たなニューラルネットワークフレームワークであるGlobal Structure-Guided Diffusion Model (GSDM) を潜在的ソリューションとして開発する。
論文 参考訳(メタデータ) (2024-01-26T13:01:28Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - De-Diffusion Makes Text a Strong Cross-Modal Interface [33.90004746543745]
我々は、事前訓練されたテキスト-画像拡散モデルを用いてデコードを行うオートエンコーダを用いる。
画像を表すDe-Diffusionテキストの精度と包括性を検証する実験。
単一のDe-Diffusionモデルは、さまざまなテキスト・トゥ・イメージツールに対して転送可能なプロンプトを提供するために一般化することができる。
論文 参考訳(メタデータ) (2023-11-01T16:12:40Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。