論文の概要: Text detection and recognition based on a lensless imaging system
- arxiv url: http://arxiv.org/abs/2210.04244v1
- Date: Sun, 9 Oct 2022 12:31:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 17:38:27.602301
- Title: Text detection and recognition based on a lensless imaging system
- Title(参考訳): レンズレスイメージングシステムによるテキストの検出と認識
- Authors: Yinger Zhang, Zhouyi Wu, Peiying Lin, Yuting Wu, Lusong Wei, Zhengjie
Huang, and Jiangtao Huangfu
- Abstract要約: ディープラーニングベースのパイプライン構造のフレームワークは、レンズレスカメラによってキャプチャされた生データから3ステップのテキストを認識するために構築された。
本研究は、レンズレスカメラシステムにおけるテキスト検出および認識タスクを合理的に実証する。
- 参考スコア(独自算出の注目度): 6.769458974198602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lensless cameras are characterized by several advantages (e.g.,
miniaturization, ease of manufacture, and low cost) as compared with
conventional cameras. However, they have not been extensively employed due to
their poor image clarity and low image resolution, especially for tasks that
have high requirements on image quality and details such as text detection and
text recognition. To address the problem, a framework of deep-learning-based
pipeline structure was built to recognize text with three steps from raw data
captured by employing lensless cameras. This pipeline structure consisted of
the lensless imaging model U-Net, the text detection model connectionist text
proposal network (CTPN), and the text recognition model convolutional recurrent
neural network (CRNN). Compared with the method focusing only on image
reconstruction, UNet in the pipeline was able to supplement the imaging details
by enhancing factors related to character categories in the reconstruction
process, so the textual information can be more effectively detected and
recognized by CTPN and CRNN with fewer artifacts and high-clarity reconstructed
lensless images. By performing experiments on datasets of different
complexities, the applicability to text detection and recognition on lensless
cameras was verified. This study reasonably demonstrates text detection and
recognition tasks in the lensless camera system,and develops a basic method for
novel applications.
- Abstract(参考訳): レンズレスカメラは、従来のカメラと比較していくつかの利点(小型化、製造が容易、低コストなど)が特徴である。
しかし、画像の明瞭度や解像度の低さ、特に画像の品質やテキスト検出やテキスト認識といった細部への要求が高いタスクにおいて、これらは広く採用されていない。
この問題に対処するため,レンズレスカメラを用いて取得した生データから3段階のテキストを認識できるように,ディープラーニングに基づくパイプライン構造のフレームワークを構築した。
このパイプライン構造は、レンズレスイメージングモデルU-Net、テキスト検出モデル接続型テキスト提案ネットワーク(CTPN)、およびテキスト認識モデル畳み込みリカレントニューラルネットワーク(CRNN)から構成されていた。
画像再構成のみに焦点を絞った方法と比較して、パイプライン内のUNetは、再構成プロセスにおける文字カテゴリに関連する因子を増強することにより、画像の詳細を補うことができ、CTPNやCRNNによってより効果的に検出され、より少ないアーティファクトと高明度再構成されたレンズレス画像で認識される。
異なる複雑さのデータセットで実験を行うことで、レンズレスカメラでのテキスト検出と認識の適用性を確認した。
本研究は、レンズレスカメラシステムにおけるテキスト検出および認識タスクを合理的に実証し、新しい用途のための基礎的手法を開発する。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Iris super-resolution using CNNs: is photo-realism important to iris
recognition? [67.42500312968455]
特に畳み込みニューラルネットワーク(CNN)を用いた単一画像超解像技術が出現している
本研究では, 虹彩認識のためのCNNを用いて, 単一画像の超解像を探索する。
彼らは、近赤外線虹彩画像の1.872のデータベースと携帯電話画像データベースのアプローチを検証する。
論文 参考訳(メタデータ) (2022-10-24T11:19:18Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - IFR: Iterative Fusion Based Recognizer For Low Quality Scene Text
Recognition [20.741958198581173]
高品質なシーンテキスト認識のためのイテレーティブフュージョンベース認識(IFR)を提案する。
IFRには2つのブランチがあり、それぞれ、シーンテキスト認識と低品質のシーンテキストイメージリカバリに焦点を当てている。
2つの枝の特徴表現を強化するために,特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-08-13T10:45:01Z) - Exploiting Raw Images for Real-Scene Super-Resolution [105.18021110372133]
本稿では,合成データと実撮影画像とのギャップを埋めるために,実シーンにおける単一画像の超解像化の問題について検討する。
本稿では,デジタルカメラの撮像過程を模倣して,よりリアルなトレーニングデータを生成する手法を提案する。
また、原画像に記録された放射情報を活用するために、2分岐畳み込みニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2021-02-02T16:10:15Z) - Real-time Non-line-of-sight Imaging with Two-step Deep Remapping [0.0]
非視線(NLOS)イメージングは、間接光を考慮に入れます。
ほとんどのソリューションは過渡走査プロセスを使用し、続いてNLOSシーンを再構築するためのバックプロジェクションベースのアルゴリズムが続く。
ここでは、上記の欠陥に対処する新しいNLOSソリューションを提案し、検出装置と再構成アルゴリズムの両方に革新をもたらす。
論文 参考訳(メタデータ) (2021-01-26T00:08:54Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。