論文の概要: HiREN: Towards Higher Supervision Quality for Better Scene Text Image
Super-Resolution
- arxiv url: http://arxiv.org/abs/2307.16410v1
- Date: Mon, 31 Jul 2023 05:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:50:26.235095
- Title: HiREN: Towards Higher Supervision Quality for Better Scene Text Image
Super-Resolution
- Title(参考訳): HiREN: Scene Image Super-Resolutionの高画質化を目指して
- Authors: Minyi Zhao, Yi Xu, Bingjia Li, Jie Wang, Jihong Guan, and Shuigeng
Zhou
- Abstract要約: Scene text image super- resolution (STISR) は低解像度シーン画像からのテキスト認識のための重要な前処理技術である。
本稿では、まず、HR画像の品質を向上し、その後、HR画像の強化を監督として利用することで、STISRを向上する新しいアイデアを提案する。
- 参考スコア(独自算出の注目度): 32.4847482760475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene text image super-resolution (STISR) is an important pre-processing
technique for text recognition from low-resolution scene images. Nowadays,
various methods have been proposed to extract text-specific information from
high-resolution (HR) images to supervise STISR model training. However, due to
uncontrollable factors (e.g. shooting equipment, focus, and environment) in
manually photographing HR images, the quality of HR images cannot be
guaranteed, which unavoidably impacts STISR performance. Observing the quality
issue of HR images, in this paper we propose a novel idea to boost STISR by
first enhancing the quality of HR images and then using the enhanced HR images
as supervision to do STISR. Concretely, we develop a new STISR framework,
called High-Resolution ENhancement (HiREN) that consists of two branches and a
quality estimation module. The first branch is developed to recover the
low-resolution (LR) images, and the other is an HR quality enhancement branch
aiming at generating high-quality (HQ) text images based on the HR images to
provide more accurate supervision to the LR images. As the degradation from HQ
to HR may be diverse, and there is no pixel-level supervision for HQ image
generation, we design a kernel-guided enhancement network to handle various
degradation, and exploit the feedback from a recognizer and text-level
annotations as weak supervision signal to train the HR enhancement branch.
Then, a quality estimation module is employed to evaluate the qualities of HQ
images, which are used to suppress the erroneous supervision information by
weighting the loss of each image. Extensive experiments on TextZoom show that
HiREN can work well with most existing STISR methods and significantly boost
their performances.
- Abstract(参考訳): Scene text image super- resolution (STISR) は低解像度シーン画像からのテキスト認識のための重要な前処理技術である。
近年,高解像度(HR)画像からテキスト固有情報を抽出し,STISRモデルトレーニングを監督する手法が提案されている。
しかし、手動によるHR画像撮影における制御不能な要因(射撃装置、焦点、環境など)のため、HR画像の品質は保証できないため、STISRのパフォーマンスに必然的に影響を及ぼす。
本稿では,まず,HR画像の品質向上とSTISRの監督にHR画像を利用することによって,STISRを向上する新たなアイデアを提案する。
具体的には,2つの分岐と品質推定モジュールからなる高分解能化(HiREN)と呼ばれる新しいSTISRフレームワークを開発する。
第1分枝は低解像度(LR)画像の復元のために開発され、第1分枝は高画質(HQ)テキスト画像の生成を目的としたHR品質向上分枝であり、LR画像のより正確な監視を提供する。
HQからHRへの劣化は多種多様であり、HQ画像生成のための画素レベルの監視は存在しないため、さまざまな劣化を処理するためのカーネル誘導拡張ネットワークを設計し、HR強調ブランチをトレーニングするための弱い監視信号として認識およびテキストレベルのアノテーションからのフィードバックを利用する。
そして、各画像の損失を重み付け、誤った監視情報を抑制するために使用される本社画像の品質を評価するために品質推定モジュールを用いる。
TextZoomの大規模な実験によると、HiRENは既存のほとんどのSTISRメソッドとうまく動作し、パフォーマンスを大幅に向上できる。
関連論文リスト
- Hipandas: Hyperspectral Image Joint Denoising and Super-Resolution by Image Fusion with the Panchromatic Image [51.333064033152304]
最近打ち上げられた衛星は、HSIとパンクロマティック(PAN)画像の同時取得が可能になった。
Hipandasは、ノイズの多い低分解能HSIと高分解能PAN画像からHRHS画像を再構成する新しい学習パラダイムである。
論文 参考訳(メタデータ) (2024-12-05T14:39:29Z) - One Model for Two Tasks: Cooperatively Recognizing and Recovering Low-Resolution Scene Text Images by Iterative Mutual Guidance [32.88048472109016]
高分解能(HR)画像からのシーンテキスト認識(STR)は著しく成功したが、低分解能(LR)画像でのテキスト読取は依然として困難である。
近年,多くのシーンテキスト画像超解像(STISR)モデルがLR画像の超解像(SR)画像を生成するために提案され,SR画像上でSTRが実行されることにより認識性能が向上した。
本稿では,LRシーンのテキスト画像の同時認識と復元を効果的に行う,画像と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-22T15:05:25Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - SRTGAN: Triplet Loss based Generative Adversarial Network for Real-World
Super-Resolution [13.897062992922029]
SISR(Single Image Super-Resolution)と呼ばれる別のソリューションは、低解像度(LR)画像を取得し、HR画像を取得することを目的としたソフトウェア駆動のアプローチである。
我々は、LR画像に提供される情報を負のサンプルとして利用することで、新たな三重項に基づく対向損失関数を導入する。
本稿では, 対向的損失, 内容的損失, 知覚的損失, 品質的損失を融合させて, 知覚的忠実度の高い超解像を得る。
論文 参考訳(メタデータ) (2022-11-22T11:17:07Z) - Rethinking Super-Resolution as Text-Guided Details Generation [21.695227836312835]
テキストと画像のモダリティからの情報を有効に活用できるテキストガイド型超解法(TGSR)フレームワークを提案する。
提案したTGSRは、粗い処理によってテキスト記述と一致するHR画像の詳細を生成することができる。
論文 参考訳(メタデータ) (2022-07-14T01:46:38Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Memory-augmented Deep Unfolding Network for Guided Image
Super-resolution [67.83489239124557]
誘導画像超解像(GISR)は、HR画像の誘導の下で低解像度(LR)目標画像の空間分解能を高めて高解像度(HR)目標画像を得る。
従来のモデルベース手法は主に画像全体を取り、HR目標画像とHRガイダンス画像との事前分布を仮定する。
HR目標画像上で2種類の事前性を持つGISRの最大後部(MAP)推定モデルを提案する。
論文 参考訳(メタデータ) (2022-02-12T15:37:13Z) - Hierarchical Conditional Flow: A Unified Framework for Image
Super-Resolution and Image Rescaling [139.25215100378284]
画像SRと画像再スケーリングのための統合フレームワークとして階層的条件フロー(HCFlow)を提案する。
HCFlowは、LR画像と残りの高周波成分の分布を同時にモデル化することにより、HRとLR画像ペア間のマッピングを学習する。
さらに性能を高めるために、知覚的損失やGAN損失などの他の損失と、トレーニングで一般的に使用される負の対数類似損失とを組み合わせる。
論文 参考訳(メタデータ) (2021-08-11T16:11:01Z) - Best-Buddy GANs for Highly Detailed Image Super-Resolution [71.13466303340192]
我々は,低分解能(LR)入力に基づいて高分解能(HR)画像を生成する単一画像超解像(SISR)問題を考える。
このラインに沿ったほとんどのメソッドは、SISRタスクに十分な柔軟性がない、事前定義されたシングルLRシングルHRマッピングに依存しています。
リッチディテールSISRのためのベストバディGAN(Beby-GAN)を提案する。
イミュータブルな1対1の制約を緩和することで、推定されたパッチを動的に最高の監視を求めることができる。
論文 参考訳(メタデータ) (2021-03-29T02:58:27Z) - Deep Generative Adversarial Residual Convolutional Networks for
Real-World Super-Resolution [31.934084942626257]
我々は,超解像残差畳み込み生成共役ネットワーク(SRResCGAN)を提案する。
これは、生成したLRドメインからHRドメインの画素単位の監督でモデルを逆トレーニングすることで、現実世界の劣化設定に従う。
提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。
論文 参考訳(メタデータ) (2020-05-03T00:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。