論文の概要: Text Image Inpainting via Global Structure-Guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2401.14832v2
- Date: Fri, 2 Feb 2024 02:01:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:41:21.708471
- Title: Text Image Inpainting via Global Structure-Guided Diffusion Models
- Title(参考訳): グローバル構造誘導拡散モデルによるテキスト画像の描画
- Authors: Shipeng Zhu, Pengfei Fang, Chenjie Zhu, Zuoyan Zhao, Qiang Xu, Hui Xue
- Abstract要約: 現実世界のテキストは、環境や人為的な要因によって引き起こされる腐食問題によって損傷を受けることがある。
現在の塗装技術は、しばしばこの問題に適切に対処するのに失敗する。
我々は,新たなニューラルネットワークフレームワークであるGlobal Structure-Guided Diffusion Model (GSDM) を潜在的ソリューションとして開発する。
- 参考スコア(独自算出の注目度): 24.2228010615509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world text can be damaged by corrosion issues caused by environmental or
human factors, which hinder the preservation of the complete styles of texts,
e.g., texture and structure. These corrosion issues, such as graffiti signs and
incomplete signatures, bring difficulties in understanding the texts, thereby
posing significant challenges to downstream applications, e.g., scene text
recognition and signature identification. Notably, current inpainting
techniques often fail to adequately address this problem and have difficulties
restoring accurate text images along with reasonable and consistent styles.
Formulating this as an open problem of text image inpainting, this paper aims
to build a benchmark to facilitate its study. In doing so, we establish two
specific text inpainting datasets which contain scene text images and
handwritten text images, respectively. Each of them includes images revamped by
real-life and synthetic datasets, featuring pairs of original images, corrupted
images, and other assistant information. On top of the datasets, we further
develop a novel neural framework, Global Structure-guided Diffusion Model
(GSDM), as a potential solution. Leveraging the global structure of the text as
a prior, the proposed GSDM develops an efficient diffusion model to recover
clean texts. The efficacy of our approach is demonstrated by thorough empirical
study, including a substantial boost in both recognition accuracy and image
quality. These findings not only highlight the effectiveness of our method but
also underscore its potential to enhance the broader field of text image
understanding and processing. Code and datasets are available at:
https://github.com/blackprotoss/GSDM.
- Abstract(参考訳): 現実世界のテキストは、環境や人為的な要因による腐食問題によって損傷を受け、テクスチャや構造などの完全なスタイルの保存を妨げる可能性がある。
これらの腐食問題、例えば落書き標識や不完全な署名は、テキストを理解するのに困難をもたらし、例えばシーンテキスト認識や署名識別といった下流のアプリケーションに重大な課題をもたらす。
特に、現在の塗装技術は、この問題に適切に対処できず、合理的で一貫したスタイルとともに正確なテキストイメージの復元が困難であることが多い。
本論文は,テキスト画像インペインティングのオープン問題として,その研究を容易にするベンチマークを構築することを目的としている。
そこで我々は,シーンテキスト画像と手書きテキスト画像を含む2つの特定のテキストインペイントデータセットを構築した。
それぞれの画像には、実生活と合成のデータセットで改良された画像が含まれており、オリジナル画像のペア、腐敗した画像、その他のアシスタント情報が含まれている。
データセットの上に、新たなニューラルネットワークフレームワークであるGlobal Structure-Guided Diffusion Model(GSDM)を潜在的ソリューションとして開発する。
提案するgsdmは,先行するテキストのグローバル構造を利用して,クリーンテキストを復元する効率的な拡散モデルを構築した。
本手法の有効性は,認識精度と画質が大幅に向上するなど,徹底的な実験によって実証された。
これらの知見は,提案手法の有効性を浮き彫りにするだけでなく,テキスト画像理解と処理の幅広い分野を強化する可能性を強調している。
コードとデータセットはhttps://github.com/blackprotoss/gsdm。
関連論文リスト
- CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Diffusion-based Blind Text Image Super-Resolution [20.91578221617732]
リアルなスタイルでテキストイメージを復元する画像拡散モデル(IDM)を提案する。
拡散モデルでは、現実的な画像分布をモデル化するだけでなく、テキスト分布の学習にも適している。
テキスト認識のためのテキスト拡散モデル(TDM)も提案する。
論文 参考訳(メタデータ) (2023-12-13T06:03:17Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Benchmarking Robustness of Text-Image Composed Retrieval [46.98557472744255]
テキスト画像合成検索は、合成されたクエリを通してターゲット画像を取得することを目的としている。
近年,情報に富む画像と簡潔な言語の両方を活用する能力に注目が集まっている。
しかし、現実世界の腐敗やさらなるテキスト理解に対するこれらのアプローチの堅牢性は研究されていない。
論文 参考訳(メタデータ) (2023-11-24T20:16:38Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。