論文の概要: TEXTS-Diff: TEXTS-Aware Diffusion Model for Real-World Text Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2601.17340v1
- Date: Sat, 24 Jan 2026 07:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.60692
- Title: TEXTS-Diff: TEXTS-Aware Diffusion Model for Real-World Text Image Super-Resolution
- Title(参考訳): TEXTS-Diff:TEXTS-Aware Diffusion Model for Real-World Text Image Super-Resolution
- Authors: Haodong He, Xin Zhan, Yancheng Bai, Rui Lan, Lei Sun, Xiangxiang Chu,
- Abstract要約: 現実世界のテキスト画像は、多彩な劣化とテキスト歪みに苦しむ画像の全体的な視覚的品質とテキストの可視性を回復することを目的としている。
実世界の画像から収集した大規模で高品質なデータセットであるReal-Textsを構築した。
また,TEXTS-Aware Diffusion Model (TEXTS-Diff) を提案する。
- 参考スコア(独自算出の注目度): 17.68575781884506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world text image super-resolution aims to restore overall visual quality and text legibility in images suffering from diverse degradations and text distortions. However, the scarcity of text image data in existing datasets results in poor performance on text regions. In addition, datasets consisting of isolated text samples limit the quality of background reconstruction. To address these limitations, we construct Real-Texts, a large-scale, high-quality dataset collected from real-world images, which covers diverse scenarios and contains natural text instances in both Chinese and English. Additionally, we propose the TEXTS-Aware Diffusion Model (TEXTS-Diff) to achieve high-quality generation in both background and textual regions. This approach leverages abstract concepts to improve the understanding of textual elements within visual scenes and concrete text regions to enhance textual details. It mitigates distortions and hallucination artifacts commonly observed in text regions, while preserving high-quality visual scene fidelity. Extensive experiments demonstrate that our method achieves state-of-the-art performance across multiple evaluation metrics, exhibiting superior generalization ability and text restoration accuracy in complex scenarios. All the code, model, and dataset will be released.
- Abstract(参考訳): 現実世界のテキスト画像は、多彩な劣化とテキスト歪みに苦しむ画像の全体的な視覚的品質とテキストの可視性を回復することを目的としている。
しかし、既存のデータセットにおけるテキスト画像データの不足により、テキスト領域のパフォーマンスは低下する。
さらに、孤立したテキストサンプルからなるデータセットは、バックグラウンド再構築の品質を制限する。
これらの制約に対処するため,実世界の画像から収集した大規模で高品質なデータセットであるReal-Textsを構築した。
さらに,TEXTS-Aware Diffusion Model (TEXTS-Diff) を提案する。
このアプローチは抽象概念を活用し、視覚シーンや具体的なテキスト領域内のテキスト要素の理解を改善し、テキストの詳細を強化する。
テキスト領域でよく見られる歪みや幻覚のアーチファクトを緩和し、高品質な視覚シーンの忠実さを保っている。
提案手法は,複数の評価指標にまたがる最先端性能を実証し,複雑なシナリオにおいて,より優れた一般化能力とテキスト復元精度を示す。
すべてのコード、モデル、データセットがリリースされる。
関連論文リスト
- Text-Aware Real-World Image Super-Resolution via Diffusion Model with Joint Segmentation Decoders [14.655107789528673]
本稿では,テキスト認識と共同セグメンテーションデコーダを統合した新しい拡散型SRフレームワークTADiSRを紹介する。
本研究では,高精細なフルイメージのテキストマスクを用いた高品質な画像合成のための完全なパイプラインを提案する。
提案手法は,超解像におけるテキストの可読性を大幅に向上させ,複数の評価指標にまたがって最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T05:23:10Z) - TextSR: Diffusion Super-Resolution with Multilingual OCR Guidance [24.242452422416438]
我々は,多言語テキスト画像超解法に特化して設計された多モーダル拡散モデルであるTextSRを紹介する。
テキストの先行画像と低解像度のテキスト画像を統合することにより,本モデルが効果的に超解像過程を導出する。
TextZoom と TextVQA のデータセット上でのモデルの優れたパフォーマンスは、STISR の新しいベンチマークを設定します。
論文 参考訳(メタデータ) (2025-05-29T05:40:35Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding [91.30065932213758]
大規模マルチモーダルモデル(LMM)は、その顕著な推論能力を活用することを目的とした研究の急増を引き起こした。
テキストリッチな画像理解のための新しいChain-of-ThoughtフレームワークであるTextCoTを提案する。
私たちのメソッドは追加のトレーニングが不要で、即時プラグアンドプレイ機能を提供します。
論文 参考訳(メタデータ) (2024-04-15T13:54:35Z) - Text Image Inpainting via Global Structure-Guided Diffusion Models [22.859984320894135]
現実世界のテキストは、環境や人為的な要因によって引き起こされる腐食問題によって損傷を受けることがある。
現在の塗装技術は、しばしばこの問題に適切に対処するのに失敗する。
我々は,新たなニューラルネットワークフレームワークであるGlobal Structure-Guided Diffusion Model (GSDM) を潜在的ソリューションとして開発する。
論文 参考訳(メタデータ) (2024-01-26T13:01:28Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。