論文の概要: Unified Diffusion Transformer for High-fidelity Text-Aware Image Restoration
- arxiv url: http://arxiv.org/abs/2512.08922v1
- Date: Tue, 09 Dec 2025 18:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.106169
- Title: Unified Diffusion Transformer for High-fidelity Text-Aware Image Restoration
- Title(参考訳): 高精細テキスト認識画像復元のための統一拡散変換器
- Authors: Jin Hyeon Kim, Paul Hyunbin Cho, Claire Kim, Jaewon Min, Jaeeun Lee, Jihye Park, Yeji Choi, Seungryong Kim,
- Abstract要約: Text-Aware Image Restoration (TAIR) は、劣化したテキストコンテンツを含む低品質な入力から高品質なイメージを復元することを目的としている。
We propose UniT, a unified text restoration framework that in-tegrates a Diffusion Transformer (DiT), a Vision-Language Model (VLM), a Text Spotting Module (TSM)。
SA-TextとReal-Textベンチマークの実験では、UniTは劣化したテキストを忠実に再構築し、幻覚を著しく低減し、TAIRタスクで最先端のF1スコアのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 36.43437855052787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-Aware Image Restoration (TAIR) aims to recover high- quality images from low-quality inputs containing degraded textual content. While diffusion models provide strong gen- erative priors for general image restoration, they often pro- duce text hallucinations in text-centric tasks due to the ab- sence of explicit linguistic knowledge. To address this, we propose UniT, a unified text restoration framework that in- tegrates a Diffusion Transformer (DiT), a Vision-Language Model (VLM), and a Text Spotting Module (TSM) in an it- erative fashion for high-fidelity text restoration. In UniT, the VLM extracts textual content from degraded images to provide explicit textual guidance. Simultaneously, the TSM, trained on diffusion features, generates intermedi- ate OCR predictions at each denoising step, enabling the VLM to iteratively refine its guidance during the denoising process. Finally, the DiT backbone, leveraging its strong representational power, exploit these cues to recover fine- grained textual content while effectively suppressing text hallucinations. Experiments on the SA-Text and Real-Text benchmarks demonstrate that UniT faithfully reconstructs degraded text, substantially reduces hallucinations, and achieves state-of-the-art end-to-end F1-score performance in TAIR task.
- Abstract(参考訳): Text-Aware Image Restoration (TAIR) は、劣化したテキストコンテンツを含む低品質な入力から高品質なイメージを復元することを目的としている。
拡散モデルは、一般的な画像復元に強い根源的先行性を提供するが、明示的な言語知識のab-文により、テキスト中心のタスクにおいて、テキスト幻覚をプロデュースすることが多い。
そこで本研究では、Diffusion Transformer(DiT)、Vision-Language Model(VLM)、Text Spotting Module(TSM)を高忠実なテキスト復元のイテレートな方法で記述する統一テキスト復元フレームワークUniTを提案する。
UniTでは、VLMは劣化した画像からテキストコンテンツを抽出し、明示的なテキストガイダンスを提供する。
同時に、拡散特性に基づいて訓練されたTSMは、各デノナイジングステップで中間食のOCR予測を生成し、デノナイジングプロセス中にVLMがそのガイダンスを反復的に洗練することを可能にする。
最終的に、DiTのバックボーンはその強力な表現力を活用し、これらのキューを利用して微細なテキストコンテンツを回復し、テキスト幻覚を効果的に抑制する。
SA-TextとReal-Textベンチマークの実験では、UniTは劣化したテキストを忠実に再構築し、幻覚を著しく低減し、TAIRタスクで最先端のF1スコアのパフォーマンスを達成する。
関連論文リスト
- Text-Aware Image Restoration with Diffusion Models [30.127247716169666]
Text-Aware Image Restoration (TAIR) は、視覚的内容とテキストの忠実性の同時回復を必要とする新しい復元作業である。
この課題に対処するために,多種多様な複雑なテキストインスタンスを付加した100Kの高品質シーン画像の大規模ベンチマークであるSA-Textを提案する。
本手法は最先端の復元手法を一貫して上回り,テキスト認識精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-11T17:59:46Z) - Boosting Diffusion-Based Text Image Super-Resolution Model Towards Generalized Real-World Scenarios [30.800865323585377]
テキスト画像超解像(SR)の拡散モデルの一般化能力向上を目的とした新しいフレームワークを提案する。
本稿では,様々な訓練段階における多様な画像型を取り入れ,収束を安定化し,一般化を改善するプログレッシブなデータサンプリング戦略を提案する。
実世界のデータセットを用いた実験により、我々のアプローチはよりリアルな視覚的外観を持つテキスト画像を生成するだけでなく、テキスト構造の精度も向上することが示された。
論文 参考訳(メタデータ) (2025-03-10T12:16:19Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。