論文の概要: One Model for Two Tasks: Cooperatively Recognizing and Recovering Low-Resolution Scene Text Images by Iterative Mutual Guidance
- arxiv url: http://arxiv.org/abs/2409.14483v1
- Date: Sun, 22 Sep 2024 15:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:30:40.638955
- Title: One Model for Two Tasks: Cooperatively Recognizing and Recovering Low-Resolution Scene Text Images by Iterative Mutual Guidance
- Title(参考訳): 2つの課題の1つのモデル:反復的相互指導による低解像度シーン画像の協調認識と検索
- Authors: Minyi Zhao, Yang Wang, Jihong Guan, Shuigeng Zhou,
- Abstract要約: 高分解能(HR)画像からのシーンテキスト認識(STR)は著しく成功したが、低分解能(LR)画像でのテキスト読取は依然として困難である。
近年,多くのシーンテキスト画像超解像(STISR)モデルがLR画像の超解像(SR)画像を生成するために提案され,SR画像上でSTRが実行されることにより認識性能が向上した。
本稿では,LRシーンのテキスト画像の同時認識と復元を効果的に行う,画像と呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 32.88048472109016
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene text recognition (STR) from high-resolution (HR) images has been significantly successful, however text reading on low-resolution (LR) images is still challenging due to insufficient visual information. Therefore, recently many scene text image super-resolution (STISR) models have been proposed to generate super-resolution (SR) images for the LR ones, then STR is done on the SR images, which thus boosts recognition performance. Nevertheless, these methods have two major weaknesses. On the one hand, STISR approaches may generate imperfect or even erroneous SR images, which mislead the subsequent recognition of STR models. On the other hand, as the STISR and STR models are jointly optimized, to pursue high recognition accuracy, the fidelity of SR images may be spoiled. As a result, neither the recognition performance nor the fidelity of STISR models are desirable. Then, can we achieve both high recognition performance and good fidelity? To this end, in this paper we propose a novel method called IMAGE (the abbreviation of Iterative MutuAl GuidancE) to effectively recognize and recover LR scene text images simultaneously. Concretely, IMAGE consists of a specialized STR model for recognition and a tailored STISR model to recover LR images, which are optimized separately. And we develop an iterative mutual guidance mechanism, with which the STR model provides high-level semantic information as clue to the STISR model for better super-resolution, meanwhile the STISR model offers essential low-level pixel clue to the STR model for more accurate recognition. Extensive experiments on two LR datasets demonstrate the superiority of our method over the existing works on both recognition performance and super-resolution fidelity.
- Abstract(参考訳): 高分解能(HR)画像からのシーンテキスト認識(STR)は大きな成功を収めているが、低分解能(LR)画像でのテキスト読み出しは視覚情報不足のため依然として困難である。
そのため、近年、LR画像の超解像度(SR)画像を生成するために多くのシーンテキスト画像超解像度(STISR)モデルが提案され、SR画像上でSTRが実行され、認識性能が向上した。
しかし、これらの手法には2つの大きな弱点がある。
一方、STISRアプローチは不完全または誤ったSR画像を生成し、STRモデルのその後の認識を誤解させる可能性がある。
一方、STISRとSTRモデルは高い認識精度を追求するために共同最適化されているため、SR画像の忠実度は損なわれる可能性がある。
その結果、STISRモデルの認識性能や忠実度は望ましいものではなかった。
では、高い認識性能と良好な忠実さを両立できるだろうか?
そこで本研究では,LRシーンのテキストイメージを同時に認識し,復元する,画像(Iterative MutuAl GuidancEの略)と呼ばれる新しい手法を提案する。
具体的には、認識のための特殊なSTRモデルと、別々に最適化されたLR画像を復元するSTISRモデルから構成される。
また,STISRモデルがSTRモデルに必要不可欠な低レベル画素の手がかりを提供し,より正確な認識を行うために,STRモデルがSTISRモデルへの手がかりとして高レベル意味情報を提供する反復的相互誘導機構を開発した。
2つのLRデータセットに対する大規模な実験は、認識性能と超解像忠実度の両方に関する既存の研究よりも、我々の手法が優れていることを示す。
関連論文リスト
- Low-Res Leads the Way: Improving Generalization for Super-Resolution by
Self-Supervised Learning [45.13580581290495]
本研究は,SRモデルの現実の画像への適応性を高めるために,新しい"Low-Res Leads the Way"(LWay)トレーニングフレームワークを導入する。
提案手法では,低分解能(LR)再構成ネットワークを用いて,LR画像から劣化埋め込みを抽出し,LR再構成のための超解出力とマージする。
私たちのトレーニング体制は普遍的に互換性があり、ネットワークアーキテクチャの変更は不要です。
論文 参考訳(メタデータ) (2024-03-05T02:29:18Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised
Real-world Single Image Super-Resolution [60.90817228730133]
単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした課題である。
近年のアプローチは、単純化されたダウンサンプリング演算子によって劣化したシミュレーションLR画像に基づいて訓練されている。
Invertible Scale-Conditional Function (ICF) を提案する。これは入力画像をスケールし、異なるスケール条件で元の入力を復元する。
論文 参考訳(メタデータ) (2023-07-24T12:42:45Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - RRSR:Reciprocal Reference-based Image Super-Resolution with Progressive
Feature Alignment and Selection [66.08293086254851]
本稿では,RefSRネットワークの学習を強化するための相互学習フレームワークを提案する。
新たに提案したモジュールは,マルチスケールの特徴空間に参照入力画像をアライメントし,参照認識機能の選択を行う。
我々は,最近のRefSRモデルが相互学習パラダイムによって一貫した改善が可能であることを実証的に示す。
論文 参考訳(メタデータ) (2022-11-08T12:39:35Z) - Reference-based Image Super-Resolution with Deformable Attention
Transformer [62.71769634254654]
RefSRは、補助参照(Ref)画像を超解像低解像度(LR)画像に活用することを目的としている。
本稿では,複数のスケールを持つ変形可能なアテンション変換器,すなわちDATSRを提案する。
DATSRがベンチマークデータセット上で最先端のパフォーマンスを達成することを示す実験を行った。
論文 参考訳(メタデータ) (2022-07-25T07:07:00Z) - Joint Generative Learning and Super-Resolution For Real-World
Camera-Screen Degradation [6.14297871633911]
現実世界の単一画像超解像(SISR)タスクでは、低解像度画像はより複雑な劣化に苦しむ。
本稿では,カメラ画面の劣化に着目し,実世界のデータセット(Cam-ScreenSR)を構築する。
まず、ダウンサンプリング劣化GAN(DD-GAN)をトレーニングし、その分解をモデル化し、より多様なLR画像を生成する。
そして、二重残差チャネルアテンションネットワーク(DuRCAN)がSR画像の復元を学習する。
論文 参考訳(メタデータ) (2020-08-01T07:10:13Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z) - Characteristic Regularisation for Super-Resolving Face Images [81.84939112201377]
既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。
従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータを用いてモデルをトレーニングすることでこの問題に対処する。
これにより、視覚的特徴を構成することと、画像の解像度を高めることの2つのタスクで、モデルをオーバーストレッチする。
従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
論文 参考訳(メタデータ) (2019-12-30T16:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。