論文の概要: Improving Scene Text Image Super-Resolution via Dual Prior Modulation
Network
- arxiv url: http://arxiv.org/abs/2302.10414v1
- Date: Tue, 21 Feb 2023 02:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 16:33:11.662632
- Title: Improving Scene Text Image Super-Resolution via Dual Prior Modulation
Network
- Title(参考訳): Dual Prior Modulation Networkによるシーンテキストの超解像化
- Authors: Shipeng Zhu, Zuoyan Zhao, Pengfei Fang, Hui Xue
- Abstract要約: Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。
既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。
我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
- 参考スコア(独自算出の注目度): 9.107363761735826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text image super-resolution (STISR) aims to simultaneously increase the
resolution and legibility of the text images, and the resulting images will
significantly affect the performance of downstream tasks. Although numerous
progress has been made, existing approaches raise two crucial issues: (1) They
neglect the global structure of the text, which bounds the semantic determinism
of the scene text. (2) The priors, e.g., text prior or stroke prior, employed
in existing works, are extracted from pre-trained text recognizers. That said,
such priors suffer from the domain gap including low resolution and blurriness
caused by poor imaging conditions, leading to incorrect guidance. Our work
addresses these gaps and proposes a plug-and-play module dubbed Dual Prior
Modulation Network (DPMN), which leverages dual image-level priors to bring
performance gain over existing approaches. Specifically, two types of
prior-guided refinement modules, each using the text mask or graphic
recognition result of the low-quality SR image from the preceding layer, are
designed to improve the structural clarity and semantic accuracy of the text,
respectively. The following attention mechanism hence modulates two
quality-enhanced images to attain a superior SR result. Extensive experiments
validate that our method improves the image quality and boosts the performance
of downstream tasks over five typical approaches on the benchmark. Substantial
visualizations and ablation studies demonstrate the advantages of the proposed
DPMN. Code is available at: https://github.com/jdfxzzy/DPMN.
- Abstract(参考訳): Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としており、結果として得られる画像は下流タスクのパフォーマンスに大きな影響を与える。
多くの進展があったが、既存のアプローチでは、(1)シーンテキストの意味的決定性の境界であるテキストのグローバルな構造を無視している。
2)事前学習されたテキスト認識者から、既存の作品で使用されるテキスト先行やストローク先行などの先行語を抽出する。
とはいえ、このような優先順位は解像度の低さや撮像条件の悪さによるぼやけなど、ドメインのギャップに苦しむため、誤ったガイダンスにつながる。
本稿では,これらのギャップに対処し,dual prior modulation network (dpmn) と呼ばれるプラグイン・アンド・プレイモジュールを提案する。
具体的には,前層からの低画質sr画像のテキストマスクや図形認識結果を用いて,テキストの構造的明快さと意味的正確さを向上させるための2種類の事前調整モジュールを設計した。
したがって、以下の注意機構は、2つの品質向上した画像を変調し、優れたSR結果を得る。
広範な実験により,提案手法が画質を向上し,ベンチマークの典型的な5つのアプローチでダウンストリームタスクのパフォーマンスを向上できることが確認された。
実体的可視化とアブレーション研究は提案されたDPMNの利点を示している。
コードはhttps://github.com/jdfxzzy/dpmn。
関連論文リスト
- Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution [18.936806519546508]
シーンテキスト画像スーパーレゾリューション(STISR)は,低解像度のシーンテキスト画像の解像度と可読性を同時に向上することを目的としている。
シーンテキスト画像の視覚構造と意味情報の2つの要因が認識性能に大きな影響を及ぼす。
本稿では,これらの要因による影響を軽減するために,事前注意ネットワーク(PEAN)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:11:20Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文 参考訳(メタデータ) (2020-07-02T09:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。