論文の概要: On-Device Spatial Attention based Sequence Learning Approach for Scene
Text Script Identification
- arxiv url: http://arxiv.org/abs/2112.00448v1
- Date: Wed, 1 Dec 2021 12:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 21:30:43.418139
- Title: On-Device Spatial Attention based Sequence Learning Approach for Scene
Text Script Identification
- Title(参考訳): オンデバイス空間注意に基づくシーンテキストスクリプト識別のためのシーケンス学習手法
- Authors: Rutika Moharir, Arun D Prabhu, Sukumar Moharana, Gopi Ramena, and
Rachit S Munjal
- Abstract要約: シーンテキストスクリプト識別のための,効率的な,リアルタイム,オンデバイス空間アテンションに基づくCNN-LSTMネットワークを提案する。
我々のネットワークはCNNで構成されており、自然画像における空間歪みを低減するための空間アテンションモジュールを備えている。
ネットワークは最先端の手法と競合する精度を達成し、ネットワークサイズは1100万のパラメータと2.7ミリ秒の推論時間で優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic identification of script is an essential component of a
multilingual OCR engine. In this paper, we present an efficient, lightweight,
real-time and on-device spatial attention based CNN-LSTM network for scene text
script identification, feasible for deployment on resource constrained mobile
devices. Our network consists of a CNN, equipped with a spatial attention
module which helps reduce the spatial distortions present in natural images.
This allows the feature extractor to generate rich image representations while
ignoring the deformities and thereby, enhancing the performance of this fine
grained classification task. The network also employs residue convolutional
blocks to build a deep network to focus on the discriminative features of a
script. The CNN learns the text feature representation by identifying each
character as belonging to a particular script and the long term spatial
dependencies within the text are captured using the sequence learning
capabilities of the LSTM layers. Combining the spatial attention mechanism with
the residue convolutional blocks, we are able to enhance the performance of the
baseline CNN to build an end-to-end trainable network for script
identification. The experimental results on several standard benchmarks
demonstrate the effectiveness of our method. The network achieves competitive
accuracy with state-of-the-art methods and is superior in terms of network
size, with a total of just 1.1 million parameters and inference time of 2.7
milliseconds.
- Abstract(参考訳): スクリプトの自動識別は多言語OCRエンジンの重要なコンポーネントである。
本稿では,シーンテキストの文字識別のための効率的,軽量,リアルタイム,オンデバイス空間注意型cnn-lstmネットワークを提案する。
我々のネットワークはCNNで構成されており、自然画像における空間歪みを低減するための空間アテンションモジュールを備えている。
これにより、特徴抽出器は変形を無視しつつリッチな画像表現を生成でき、これにより、このきめ細かい分類タスクの性能を高めることができる。
ネットワークはまた、残余の畳み込みブロックを使用して、スクリプトの識別機能にフォーカスするディープネットワークを構築する。
CNNは、特定のスクリプトに属する各文字を識別してテキスト特徴表現を学習し、LSTM層のシーケンス学習機能を用いて、テキスト内の長期空間依存をキャプチャする。
空間的注意機構と残差畳み込みブロックを組み合わせることで、ベースラインCNNの性能を高め、スクリプト識別のためのエンドツーエンドのトレーニング可能なネットワークを構築することができる。
いくつかの標準ベンチマーク実験の結果,提案手法の有効性が示された。
ネットワークは最先端の手法と競合する精度を達成し、ネットワークサイズは1100万のパラメータと2.7ミリ秒の推論時間で優れている。
関連論文リスト
- Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - BlockCopy: High-Resolution Video Processing with Block-Sparse Feature
Propagation and Online Policies [57.62315799929681]
BlockCopyは、事前訓練されたフレームベースのCNNを高速化して、より効率的にビデオを処理するスキームである。
軽量ポリシーネットワークは、画像内の重要領域を決定し、選択された領域のみに操作を適用する。
非選択領域の特徴は、単に前のフレームからコピーされ、計算数とレイテンシーが減少する。
論文 参考訳(メタデータ) (2021-08-20T21:16:01Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - TeLCoS: OnDevice Text Localization with Clustering of Script [0.0]
低メモリのモバイルデバイス上でのシーンテキストのローカライズと認識は幅広い応用がある。
多言語ローカライズされたテキストのテキスト認識には、OCRシステムは各テキストインスタンスのスクリプトの事前知識が必要です。
新規な構造的類似性に基づくチャネル切断機構を導入し、わずか1.15Mパラメータで効率的なネットワークを構築する。
論文 参考訳(メタデータ) (2021-04-16T11:45:20Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Multi-Task Network Pruning and Embedded Optimization for Real-time
Deployment in ADAS [0.0]
カメラベースのディープラーニングアルゴリズムは、自動運転システムにおける認識にますます必要である。
自動車業界からの制約は、限られた計算リソースで組み込みシステムを課すことでCNNの展開に挑戦します。
商用プロトタイププラットフォーム上で,このような条件下でマルチタスクCNNネットワークを埋め込む手法を提案する。
論文 参考訳(メタデータ) (2021-01-19T19:29:38Z) - From text saliency to linguistic objects: learning linguistic
interpretable markers with a multi-channels convolutional architecture [2.064612766965483]
本稿では,分類プロセスを利用したテキストから解釈可能な言語オブジェクトを抽出するために,実装されたCNNの隠れ層を検査する手法を提案する。
我々は、英語とフランス語の2つの異なる言語からのコーパスに対するアプローチの効率を実証的に実証した。
論文 参考訳(メタデータ) (2020-04-07T10:46:58Z) - Dual Convolutional LSTM Network for Referring Image Segmentation [18.181286443737417]
イメージセグメンテーションは、コンピュータビジョンと自然言語理解の共通点における問題である。
本稿では,この問題を解決するために,二重畳み込みLSTM(ConvLSTM)ネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-30T20:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。