論文の概要: STRIDE : Scene Text Recognition In-Device
- arxiv url: http://arxiv.org/abs/2105.07795v1
- Date: Mon, 17 May 2021 13:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:41:57.560507
- Title: STRIDE : Scene Text Recognition In-Device
- Title(参考訳): STRIDE : デバイス内におけるシーンテキスト認識
- Authors: Rachit S Munjal, Arun D Prabhu, Nikhil Arora, Sukumar Moharana, Gopi
Ramena
- Abstract要約: 我々は,0.88万のパラメータしか持たず,リアルタイムなテキスト認識を行う,効率的なシーンテキスト認識(STR)システムを開発した。
Inference speed of 2.44 ms per word on the Exynos 990 chipset device, and achieve a accuracy of 88.4% on ICDAR-13 data。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Optical Character Recognition (OCR) systems have been widely used in various
applications for extracting semantic information from images. To give the user
more control over their privacy, an on-device solution is needed. The current
state-of-the-art models are too heavy and complex to be deployed on-device. We
develop an efficient lightweight scene text recognition (STR) system, which has
only 0.88M parameters and performs real-time text recognition. Attention
modules tend to boost the accuracy of STR networks but are generally slow and
not optimized for device inference. So, we propose the use of convolution
attention modules to the text recognition networks, which aims to provide
channel and spatial attention information to the LSTM module by adding very
minimal computational cost. It boosts our word accuracy on ICDAR 13 dataset by
almost 2\%. We also introduce a novel orientation classifier module, to support
the simultaneous recognition of both horizontal and vertical text. The proposed
model surpasses on-device metrics of inference time and memory footprint and
achieves comparable accuracy when compared to the leading commercial and other
open-source OCR engines. We deploy the system on-device with an inference speed
of 2.44 ms per word on the Exynos 990 chipset device and achieve an accuracy of
88.4\% on ICDAR-13 dataset.
- Abstract(参考訳): 光文字認識(OCR)システムは画像から意味情報を抽出する様々な用途で広く利用されている。
ユーザのプライバシをよりコントロールするためには、デバイス上のソリューションが必要です。
現在の最先端のモデルは重く、デバイス上にデプロイするには複雑すぎる。
我々は,0.88万のパラメータしか持たず,リアルタイムなテキスト認識を行う,効率的なシーンテキスト認識(STR)システムを開発した。
注意モジュールはSTRネットワークの精度を高める傾向にあるが、一般的には遅く、デバイス推論に最適化されていない。
そこで本研究では,LSTMモジュールへのチャネルおよび空間的注意情報の提供を目的とした,テキスト認識ネットワークへのコンボリューションアテンションモジュールの利用を提案する。
ICDAR 13データセットの単語精度を約2倍に向上します。
また,水平テキストと垂直テキストの同時認識を支援するために,新たな向き分類器モジュールを導入する。
提案モデルは,推定時間とメモリフットプリントのデバイス上の測定値を超え,主要な商用および他のオープンソースOCRエンジンと比較して,同等の精度を実現する。
Inference speed of 2.44 ms per word on the Exynos 990 chipset device, and achieve a accuracy of 88.4\% on ICDAR-13 data。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Mobile-Seed: Joint Semantic Segmentation and Boundary Detection for
Mobile Robots [17.90723909170376]
セマンティックセグメンテーションと境界検出を同時に行う軽量なフレームワークであるMobile-Seedを紹介する。
我々のフレームワークは、2ストリームエンコーダ、アクティブフュージョンデコーダ(AFD)、デュアルタスク正規化アプローチを備えている。
Cityscapesデータセットの実験によると、Mobile-Seedは最先端(SOTA)ベースラインよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-11-21T14:53:02Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - HeteroEdge: Addressing Asymmetry in Heterogeneous Collaborative
Autonomous Systems [1.274065448486689]
2台の無人地上車両(UGV)と2台のNVIDIA Jetsonデバイスからなるテストベッドの自己適応最適化フレームワークを提案する。
このフレームワークは、異種ノード上の複数のタスク(ストレージ、処理、計算、送信、推論)を同時に効率的に管理する。
入力された画像フレームの圧縮とマスキング、類似したフレームの識別、および最適化のための境界条件を得るためにプロファイリング装置を含む。
論文 参考訳(メタデータ) (2023-05-05T02:43:16Z) - Lightweight Salient Object Detection in Optical Remote-Sensing Images
via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。
具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文 参考訳(メタデータ) (2023-01-07T04:33:51Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - LIDSNet: A Lightweight on-device Intent Detection model using Deep
Siamese Network [2.624902795082451]
LIDSNetは、デバイス上の意図を検出する新しい軽量なモデルである。
我々は,Samsung Galaxy S20デバイス上でのMobileBERTよりも,推論時に少なくとも41倍,30倍高速であることを示す。
論文 参考訳(メタデータ) (2021-10-06T18:20:37Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Lite-HDSeg: LiDAR Semantic Segmentation Using Lite Harmonic Dense
Convolutions [2.099922236065961]
完全3ドルのLiDAR点雲のセマンティックセグメンテーションのための,新しいリアルタイム畳み込みニューラルネットワークLite-HDSegを提案する。
提案手法は,リアルタイムに動作可能な意味セグメンテーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-16T04:54:57Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。