論文の概要: On-Device Text Image Super Resolution
- arxiv url: http://arxiv.org/abs/2011.10251v1
- Date: Fri, 20 Nov 2020 07:49:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:57:08.959802
- Title: On-Device Text Image Super Resolution
- Title(参考訳): オンデバイステキスト画像スーパーレゾリューション
- Authors: Dhruval Jain, Arun D Prabhu, Gopi Ramena, Manoj Goyal, Debi Prasanna
Mohanty, Sukumar Moharana, Naresh Purre
- Abstract要約: 我々は、よりシャープな文字エッジを再構築し、OCRの信頼性を高める新しいディープニューラルネットワークを提案する。
提案アーキテクチャは, バイコビックアップサンプリングによるPSNRの大幅な改善を実現するだけでなく, 平均推定時間1枚当たり11.7msで動作する。
ICDAR 2015 TextSRデータセットでは、OCRの精度が75.89%に達しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research on super-resolution (SR) has witnessed major developments
with the advancements of deep convolutional neural networks. There is a need
for information extraction from scenic text images or even document images on
device, most of which are low-resolution (LR) images. Therefore, SR becomes an
essential pre-processing step as Bicubic Upsampling, which is conventionally
present in smartphones, performs poorly on LR images. To give the user more
control over his privacy, and to reduce the carbon footprint by reducing the
overhead of cloud computing and hours of GPU usage, executing SR models on the
edge is a necessity in the recent times. There are various challenges in
running and optimizing a model on resource-constrained platforms like
smartphones. In this paper, we present a novel deep neural network that
reconstructs sharper character edges and thus boosts OCR confidence. The
proposed architecture not only achieves significant improvement in PSNR over
bicubic upsampling on various benchmark datasets but also runs with an average
inference time of 11.7 ms per image. We have outperformed state-of-the-art on
the Text330 dataset. We also achieve an OCR accuracy of 75.89% on the ICDAR
2015 TextSR dataset, where ground truth has an accuracy of 78.10%.
- Abstract(参考訳): 超解像(SR)に関する最近の研究は、深層畳み込みニューラルネットワークの発展とともに大きな発展をみせた。
景観テキスト画像やデバイス上の文書画像から情報を抽出する必要があるが、そのほとんどは低解像度(LR)画像である。
したがって、従来スマートフォンに存在していたビクビックアップサンプリングは、LR画像に悪影響を及ぼすため、SRは必須の事前処理ステップとなる。
ユーザが自身のプライバシをよりコントロールできるようにし、クラウドコンピューティングのオーバーヘッドとGPU使用時間の短縮によってカーボンフットプリントを削減するためには、エッジ上でSRモデルを実行することが近年必要である。
モデルの実行と最適化には、スマートフォンのようなリソース制約のあるプラットフォーム上でのさまざまな課題がある。
本稿では,より鋭い文字エッジを再構成し,ocr信頼性を高める新しいディープニューラルネットワークを提案する。
提案したアーキテクチャは、様々なベンチマークデータセット上でのバイコビックアップサンプリングよりもPSNRを大幅に改善するだけでなく、1画像あたりの平均推定時間11.7msで動作する。
text330データセットでは最先端を上回っています。
また、icdar 2015 textsrデータセットにおけるocr精度は75.89%で、基底真理は78.10%である。
関連論文リスト
- Unveiling Hidden Details: A RAW Data-Enhanced Paradigm for Real-World Super-Resolution [56.98910228239627]
リアル・ワールド・イメージ・スーパーレゾリューション(Real SR)は、低解像度(LR)画像から高忠実でディテールに富んだ高解像度(HR)画像を生成することを目的としている。
既存のReal SRメソッドは主にLR RGBドメインから詳細を生成することに重点を置いており、しばしば細部における豊かさや忠実さの欠如につながっている。
RAWデータに隠された詳細を用いて既存のRGBのみの手法を補完し、優れた出力を得る。
論文 参考訳(メタデータ) (2024-11-16T13:29:50Z) - Rethinking Image Super-Resolution from Training Data Perspectives [54.28824316574355]
画像超解像(SR)におけるトレーニングデータの効果について検討する。
そこで我々は,自動画像評価パイプラインを提案する。
その結果, (i) 圧縮アーチファクトの少ないデータセット, (ii) 被写体数によって判断される画像内多様性の高いデータセット, (iii) ImageNet や PASS からの大量の画像がSR性能に肯定的な影響を与えることがわかった。
論文 参考訳(メタデータ) (2024-09-01T16:25:04Z) - Compiler-Aware Neural Architecture Search for On-Mobile Real-time
Super-Resolution [48.13296296287587]
適応SRブロックを用いた深度探索と層間幅探索を行うコンパイラ対応SRニューラルアーキテクチャサーチ(NAS)フレームワークを提案する。
我々は,モバイルプラットフォームのGPU/DSP上でのSR性能と競合する720pの解像度を実現するために,リアルタイムSR推論を実現する。
論文 参考訳(メタデータ) (2022-07-25T23:59:19Z) - Real-Time Super-Resolution for Real-World Images on Mobile Devices [11.632812550056173]
Image Super-Resolution (ISR) は、高分解能(HR)画像を対応する低分解能(LR)画像から復元することを目的としている。
ISRの最近の進歩は目覚ましいが、エッジデバイスに展開するには計算集約的すぎる。
本研究では,モバイルデバイス上でのリアルタイムIDRに対するアプローチについて述べる。
論文 参考訳(メタデータ) (2022-06-03T18:44:53Z) - Improving Super-Resolution Performance using Meta-Attention Layers [17.870338228921327]
畳み込みニューラルネットワーク(CNN)は多くの超解像(SR)と画像復元タスクで素晴らしい結果を得た。
SRのIll-posed性質は、複数の異なる劣化を経た画像を正確に超解き出すのを難しくする。
メタアテンション(メタアテンション)は、任意のSR CNNが関連する劣化パラメータで利用可能な情報を活用できるようにするメカニズムである。
論文 参考訳(メタデータ) (2021-10-27T09:20:21Z) - Achieving on-Mobile Real-Time Super-Resolution with Neural Architecture
and Pruning Search [64.80878113422824]
リアルタイムの推論要求を満たすとともに、画像品質の高いスパース超解像モデル(SR)を導出する自動探索フレームワークを提案する。
提案したフレームワークでは、競合画像の品質を持つ720pの解像度を実現するために、リアルタイムSR推論(フレームあたり数ミリ秒)を初めて実現している。
論文 参考訳(メタデータ) (2021-08-18T06:47:31Z) - Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。
我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。
実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文 参考訳(メタデータ) (2021-01-26T18:57:21Z) - Boosting High-Level Vision with Joint Compression Artifacts Reduction
and Super-Resolution [10.960291115491504]
任意の品質係数で圧縮された低解像度画像から、アーティファクトフリーの高解像度画像を生成する。
文脈認識型CARとSRニューラルネットワーク(CAJNN)は、局所的特徴と非局所的特徴を統合し、CARとSRを1段階で解く。
高品質で高解像度な画像を予測するために、ディープ・リコンストラクション・ネットワークが採用されている。
論文 参考訳(メタデータ) (2020-10-18T04:17:08Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。