論文の概要: ESTISR: Adapting Efficient Scene Text Image Super-resolution for
Real-Scenes
- arxiv url: http://arxiv.org/abs/2306.02443v1
- Date: Sun, 4 Jun 2023 19:14:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:48:02.554842
- Title: ESTISR: Adapting Efficient Scene Text Image Super-resolution for
Real-Scenes
- Title(参考訳): estisr: 実シーンに効率的なシーンテキスト画像スーパーレゾリューションを適用する
- Authors: Minghao Fu, Xin Man, Yihan Xu, Jie Shao
- Abstract要約: シーンテキスト画像超解像(STISR)は、シーンテキストの正確な認識において顕著な改善をもたらした。
本稿では,資源限定配置プラットフォームのための高効率Scene Text Image Super- resolution (ESTISR) ネットワークを提案する。
ESTISRは、実際の実行時間とピークメモリ消費の点で、現在のメソッドよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 25.04435367653037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While scene text image super-resolution (STISR) has yielded remarkable
improvements in accurately recognizing scene text, prior methodologies have
placed excessive emphasis on optimizing performance, rather than paying due
attention to efficiency - a crucial factor in ensuring deployment of the
STISR-STR pipeline. In this work, we propose a novel Efficient Scene Text Image
Super-resolution (ESTISR) Network for resource-limited deployment platform.
ESTISR's functionality primarily depends on two critical components: a
CNN-based feature extractor and an efficient self-attention mechanism used for
decoding low-resolution images. We designed a re-parameterized inverted
residual block specifically suited for resource-limited circumstances as the
feature extractor. Meanwhile, we proposed a novel self-attention mechanism,
softmax shrinking, based on a kernel-based approach. This innovative technique
offers linear complexity while also naturally incorporating discriminating
low-level features into the self-attention structure. Extensive experiments on
TextZoom show that ESTISR retains a high image restoration quality and improved
STR accuracy of low-resolution images. Furthermore, ESTISR consistently
outperforms current methods in terms of actual running time and peak memory
consumption, while achieving a better trade-off between performance and
efficiency.
- Abstract(参考訳): シーンテキスト画像の超解像(STISR)は、シーンテキストの正確な認識において著しく改善されているが、従来の手法では、効率に注意を払うのではなく、パフォーマンスの最適化に過度に重点を置いている。
そこで本研究では,資源限定配置プラットフォームのための高効率テキスト画像スーパーレゾリューション(ESTISR)ネットワークを提案する。
ESTISRの機能は主にCNNベースの特徴抽出器と低解像度画像の復号に使用される効率的な自己認識機構の2つの重要なコンポーネントに依存している。
特徴抽出器として資源制限条件に適した再パラメータ化逆残余ブロックを設計した。
一方,カーネルベースのアプローチに基づいて,新しい自己着脱機構softmax shrinkingを提案した。
このイノベーティブなテクニックは線形複雑性を提供し、同時に自然に低レベルの特徴を自己着脱構造に組み込む。
TextZoomの大規模な実験により、ESTISRは高い画像復元品質を維持し、低解像度画像のSTR精度を改善していることが示された。
さらに、ESTISRは、実際の実行時間とピークメモリ消費の点で、現在の手法を一貫して上回り、性能と効率のトレードオフを良くしている。
関連論文リスト
- One-step Generative Diffusion for Realistic Extreme Image Rescaling [47.89362819768323]
極端画像再スケーリングのためのワンステップイメージ再スケーリング拡散(OSIRDiff)と呼ばれる新しいフレームワークを提案する。
OSIRDiffは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を実行する。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - PEAN: A Diffusion-Based Prior-Enhanced Attention Network for Scene Text Image Super-Resolution [18.936806519546508]
シーンテキスト画像スーパーレゾリューション(STISR)は,低解像度のシーンテキスト画像の解像度と可読性を同時に向上することを目的としている。
シーンテキスト画像の視覚構造と意味情報の2つの要因が認識性能に大きな影響を及ぼす。
本稿では,これらの要因による影響を軽減するために,事前注意ネットワーク(PEAN)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:11:20Z) - Swift Parameter-free Attention Network for Efficient Super-Resolution [8.365929625909509]
シングルイメージ超解像は、低レベルのコンピュータビジョンにおいて重要な課題である。
Swiftを提案します。
パラメータカウント、推論速度、画像品質のバランスをとるパラメータフリーアテンションネットワーク(SPAN)。
複数のベンチマークでSPANを評価し,画像品質と推論速度の両面で既存の高効率超解像モデルより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-21T18:30:40Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - CiaoSR: Continuous Implicit Attention-in-Attention Network for
Arbitrary-Scale Image Super-Resolution [158.2282163651066]
本稿ではCiaoSRと呼ばれる連続的な暗黙の注意-注意ネットワークを提案する。
我々は、周辺地域の特徴のアンサンブル重みを学習するために、暗黙の注意ネットワークを明示的に設計する。
我々は、この暗黙の注意ネットワークにスケールアウェアの注意を埋め込んで、追加の非ローカル情報を活用する。
論文 参考訳(メタデータ) (2022-12-08T15:57:46Z) - Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text
Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。
それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。
提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文 参考訳(メタデータ) (2022-07-14T06:49:59Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Residual Local Feature Network for Efficient Super-Resolution [20.62809970985125]
本研究では,Residual Local Feature Network (RLFN)を提案する。
主なアイデアは、3つの畳み込みレイヤを局所的な特徴学習に使用して、機能の集約を単純化することだ。
さらに,NTIRE 2022の高効率超解像問題において,第1位を獲得した。
論文 参考訳(メタデータ) (2022-05-16T08:46:34Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。