論文の概要: Text-Aware Image Restoration with Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.09993v1
- Date: Wed, 11 Jun 2025 17:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.194658
- Title: Text-Aware Image Restoration with Diffusion Models
- Title(参考訳): 拡散モデルを用いたテキスト認識画像復元
- Authors: Jaewon Min, Jin Hyeon Kim, Paul Hyunbin Cho, Jaeeun Lee, Jihye Park, Minkyu Park, Sangpil Kim, Hyunhee Park, Seungryong Kim,
- Abstract要約: Text-Aware Image Restoration (TAIR) は、視覚的内容とテキストの忠実性の同時回復を必要とする新しい復元作業である。
この課題に対処するために,多種多様な複雑なテキストインスタンスを付加した100Kの高品質シーン画像の大規模ベンチマークであるSA-Textを提案する。
本手法は最先端の復元手法を一貫して上回り,テキスト認識精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 30.127247716169666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image restoration aims to recover degraded images. However, existing diffusion-based restoration methods, despite great success in natural image restoration, often struggle to faithfully reconstruct textual regions in degraded images. Those methods frequently generate plausible but incorrect text-like patterns, a phenomenon we refer to as text-image hallucination. In this paper, we introduce Text-Aware Image Restoration (TAIR), a novel restoration task that requires the simultaneous recovery of visual contents and textual fidelity. To tackle this task, we present SA-Text, a large-scale benchmark of 100K high-quality scene images densely annotated with diverse and complex text instances. Furthermore, we propose a multi-task diffusion framework, called TeReDiff, that integrates internal features from diffusion models into a text-spotting module, enabling both components to benefit from joint training. This allows for the extraction of rich text representations, which are utilized as prompts in subsequent denoising steps. Extensive experiments demonstrate that our approach consistently outperforms state-of-the-art restoration methods, achieving significant gains in text recognition accuracy. See our project page: https://cvlab-kaist.github.io/TAIR/
- Abstract(参考訳): 画像復元は劣化した画像の復元を目的としている。
しかし、自然画像復元に大きな成功にもかかわらず、既存の拡散ベースの復元手法は、劣化した画像のテキスト領域の忠実な再構築に苦慮することが多い。
これらの手法は、しばしば、テキスト・イメージ・幻覚(text-image Hallucination)と呼ばれる、可塑性だが誤ったテキスト・ライクなパターンを生成する。
本稿では,テキスト・アウェア・イメージ・リカバリ(TAIR)について紹介する。
この課題に対処するために,多種多様な複雑なテキストインスタンスを付加した100Kの高品質シーン画像の大規模ベンチマークであるSA-Textを提案する。
さらに,多タスク拡散フレームワークTeReDiffを提案する。このフレームワークは,拡散モデルの内部機能をテキストスポッティングモジュールに統合することで,両コンポーネントが共同トレーニングの恩恵を受けることができる。
これにより、リッチテキスト表現の抽出が可能となり、後続の denoising ステップのプロンプトとして利用される。
大規模な実験により,本手法は最先端の復元手法を一貫して上回り,テキスト認識精度を大幅に向上させることが実証された。
プロジェクトページ https://cvlab-kaist.github.io/TAIR/
関連論文リスト
- Improving Image Restoration through Removing Degradations in Textual
Representations [60.79045963573341]
劣化画像のテキスト表現の劣化を除去し,画像復元を改善するための新たな視点を導入する。
クロスモーダル支援に対処するため,劣化した画像をテキスト表現にマッピングし,劣化を除去する手法を提案する。
特に、画像からテキストへのマッパーとテキスト復元モジュールをCLIP対応のテキストから画像へのモデルに組み込んで、ガイダンスを生成する。
論文 参考訳(メタデータ) (2023-12-28T19:18:17Z) - SPIRE: Semantic Prompt-Driven Image Restoration [66.26165625929747]
セマンティック・復元型画像復元フレームワークであるSPIREを開発した。
本手法は,復元強度の量的仕様を言語ベースで記述することで,より詳細な指導を支援する最初のフレームワークである。
本実験は, SPIREの修復性能が, 現状と比較して優れていることを示すものである。
論文 参考訳(メタデータ) (2023-12-18T17:02:30Z) - Image Super-Resolution with Text Prompt Diffusion [118.023531454099]
画像SRにテキストプロンプトを導入し、劣化前の情報を提供する。
PromptSRは、最新のマルチモーダル大言語モデル(MLLM)を利用して、低解像度画像からプロンプトを生成する。
実験により、テキストプロンプトをSRに導入すると、合成画像と実世界の画像の両方で印象的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-24T05:11:35Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Extremely Low-light Image Enhancement with Scene Text Restoration [29.08094129045479]
シーンテキストを正確に復元する新しい画像強調フレームワークを提案する。
我々は,自己調整型アテンションマップ,エッジマップ,新たなテキスト検出損失を用いる。
提案手法は,画像復元,テキスト検出,テキストスポッティングにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-04-01T16:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。