論文の概要: Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement
- arxiv url: http://arxiv.org/abs/2307.09749v1
- Date: Wed, 19 Jul 2023 05:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:25:26.936650
- Title: Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement
- Title(参考訳): 明示的位置強調によるロバストシーン画像の高分解能化に向けて
- Authors: Hang Guo, Tao Dai, Guanghao Meng, Shu-Tao Xia
- Abstract要約: シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
- 参考スコア(独自算出の注目度): 59.66539728681453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text image super-resolution (STISR), aiming to improve image quality
while boosting downstream scene text recognition accuracy, has recently
achieved great success. However, most existing methods treat the foreground
(character regions) and background (non-character regions) equally in the
forward process, and neglect the disturbance from the complex background, thus
limiting the performance. To address these issues, in this paper, we propose a
novel method LEMMA that explicitly models character regions to produce
high-level text-specific guidance for super-resolution. To model the location
of characters effectively, we propose the location enhancement module to
extract character region features based on the attention map sequence. Besides,
we propose the multi-modal alignment module to perform bidirectional
visual-semantic alignment to generate high-quality prior guidance, which is
then incorporated into the super-resolution branch in an adaptive manner using
the proposed adaptive fusion module. Experiments on TextZoom and four scene
text recognition benchmarks demonstrate the superiority of our method over
other state-of-the-art methods. Code is available at
https://github.com/csguoh/LEMMA.
- Abstract(参考訳): 下流のテキスト認識精度を高めながら画質を向上させるscene text image super- resolution (stisr)が最近大きな成功を収めている。
しかし、既存のほとんどの手法は前景(文字領域)と背景(非文字領域)を同じプロセスで処理し、複雑な背景から乱れを無視し、性能を制限している。
そこで本稿では,文字領域を明示的にモデル化し,高レベルのテキスト固有ガイダンスを高解像度に作成する手法であるLEMMAを提案する。
キャラクタの位置を効果的にモデル化するために,アテンションマップ列に基づいてキャラクタ領域の特徴を抽出する位置拡張モジュールを提案する。
また,マルチモーダルアライメントモジュールを提案することにより,双方向のビジュアル・セマンティクスアライメントを行い,高品質の事前ガイダンスを生成し,提案する適応型融合モジュールを用いて,超解像分枝に適応的に組み込む。
テキストズームと4つのシーンテキスト認識ベンチマークの実験は、他の最先端手法よりも優れた方法を示している。
コードはhttps://github.com/csguoh/LEMMAで入手できる。
関連論文リスト
- Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution [54.05367433562495]
領域レベルのマルチモーダリティ手法は、参照画像領域を人間の好む言語記述に変換することができる。
残念ながら、固定的な視覚入力を用いた既存の手法の多くは、正確な言語記述を見つけるための解像度適応性に欠けていたままである。
そこで我々はDynReferと呼ばれるダイナミック・レゾリューション・アプローチを提案し、高精度な領域レベルの参照を追求する。
論文 参考訳(メタデータ) (2024-05-25T05:44:55Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image
Super-Resolution [18.73348268987249]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Improving Scene Text Image Super-resolution via Dual Prior Modulation
Network [20.687100711699788]
Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。
既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。
我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-21T02:59:37Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - DT2I: Dense Text-to-Image Generation from Region Descriptions [3.883984493622102]
我々は、より直感的な画像生成への道を開くための新しいタスクとして、高密度テキスト・ツー・イメージ(DT2I)合成を導入する。
また,意味豊かな領域記述から画像を生成する新しい手法であるDTC-GANを提案する。
論文 参考訳(メタデータ) (2022-04-05T07:57:11Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。