Fugu-MT 論文翻訳(概要): Improving Scene Text Image Super-resolution via Dual Prior Modulation Network

論文の概要: Improving Scene Text Image Super-resolution via Dual Prior Modulation Network

arxiv url: http://arxiv.org/abs/2302.10414v2
Date: Thu, 30 Nov 2023 02:27:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 20:59:59.215301
Title: Improving Scene Text Image Super-resolution via Dual Prior Modulation Network
Title（参考訳）: デュアル事前変調ネットワークによるシーンテキスト画像の高分解能化
Authors: Shipeng Zhu, Zuoyan Zhao, Pengfei Fang, Hui Xue
Abstract要約: Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
参考スコア（独自算出の注目度）: 20.687100711699788
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text image super-resolution (STISR) aims to simultaneously increase the resolution and legibility of the text images, and the resulting images will significantly affect the performance of downstream tasks. Although numerous progress has been made, existing approaches raise two crucial issues: (1) They neglect the global structure of the text, which bounds the semantic determinism of the scene text. (2) The priors, e.g., text prior or stroke prior, employed in existing works, are extracted from pre-trained text recognizers. That said, such priors suffer from the domain gap including low resolution and blurriness caused by poor imaging conditions, leading to incorrect guidance. Our work addresses these gaps and proposes a plug-and-play module dubbed Dual Prior Modulation Network (DPMN), which leverages dual image-level priors to bring performance gain over existing approaches. Specifically, two types of prior-guided refinement modules, each using the text mask or graphic recognition result of the low-quality SR image from the preceding layer, are designed to improve the structural clarity and semantic accuracy of the text, respectively. The following attention mechanism hence modulates two quality-enhanced images to attain a superior SR result. Extensive experiments validate that our method improves the image quality and boosts the performance of downstream tasks over five typical approaches on the benchmark. Substantial visualizations and ablation studies demonstrate the advantages of the proposed DPMN. Code is available at: https://github.com/jdfxzzy/DPMN.
Abstract（参考訳）: Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としており、結果として得られる画像は下流タスクのパフォーマンスに大きな影響を与える。多くの進展があったが、既存のアプローチでは、(1)シーンテキストの意味的決定性の境界であるテキストのグローバルな構造を無視している。 2)事前学習されたテキスト認識者から、既存の作品で使用されるテキスト先行やストローク先行などの先行語を抽出する。とはいえ、このような優先順位は解像度の低さや撮像条件の悪さによるぼやけなど、ドメインのギャップに苦しむため、誤ったガイダンスにつながる。本稿では,これらのギャップに対処し,dual prior modulation network (dpmn) と呼ばれるプラグイン・アンド・プレイモジュールを提案する。具体的には,前層からの低画質sr画像のテキストマスクや図形認識結果を用いて,テキストの構造的明快さと意味的正確さを向上させるための2種類の事前調整モジュールを設計した。したがって、以下の注意機構は、2つの品質向上した画像を変調し、優れたSR結果を得る。広範な実験により,提案手法が画質を向上し,ベンチマークの典型的な5つのアプローチでダウンストリームタスクのパフォーマンスを向上できることが確認された。実体的可視化とアブレーション研究は提案されたDPMNの利点を示している。コードはhttps://github.com/jdfxzzy/dpmn。

関連論文リスト

Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文参考訳（メタデータ） (2025-07-14T16:21:05Z)
OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。 1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文参考訳（メタデータ） (2025-07-08T03:27:46Z)
NCAP: Scene Text Image Super-Resolution with Non-CAtegorical Prior [0.0]
Scene Text Image Super- resolution (STISR) は低解像度画像の解像度と画質を向上させる。 TPのような明示的なカテゴリーの先行は、誤ってSTISRに悪影響を及ぼす可能性がある。事前訓練された認識器は、低解像度画像とのTP闘争を発生させるのに使われた。
論文参考訳（メタデータ） (2025-04-01T04:14:07Z)
Semantic Alignment and Reinforcement for Data-Free Quantization of Vision Transformers [58.14748181398049]
データフリー量子化(DFQ)は、実際のデータにアクセスせずにモデル量子化を可能にし、データのセキュリティとプライバシに関する懸念に対処する。ビジョントランスフォーマー(ViTs)の普及に伴い、ViTsのDFQは大きな注目を集めている。本稿では,新しいセマンティックアライメントと強化データ自由化手法であるSARDFQを提案する。
論文参考訳（メタデータ） (2024-12-21T09:30:45Z)
Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文参考訳（メタデータ） (2023-12-10T22:07:42Z)
PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution [18.936806519546508]
シーンテキスト画像スーパーレゾリューション(STISR)は,低解像度のシーンテキスト画像の解像度と可読性を同時に向上することを目的としている。シーンテキスト画像の視覚構造と意味情報の2つの要因が認識性能に大きな影響を及ぼす。本稿では,これらの要因による影響を軽減するために,事前注意ネットワーク(PEAN)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:11:20Z)
Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文参考訳（メタデータ） (2023-11-22T11:10:45Z)
TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文参考訳（メタデータ） (2023-08-13T11:02:16Z)
Towards Robust Scene Text Image Super-resolution via Explicit Location Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文参考訳（メタデータ） (2023-07-19T05:08:47Z)
RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文参考訳（メタデータ） (2023-05-31T06:59:21Z)
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。 i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-03-24T15:44:50Z)
Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文参考訳（メタデータ） (2021-02-23T07:20:12Z)
DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文参考訳（メタデータ） (2020-08-13T12:51:17Z)
PerceptionGAN: Real-world Image Construction from Provided Text through Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文参考訳（メタデータ） (2020-07-02T09:23:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。