論文の概要: TeLCoS: OnDevice Text Localization with Clustering of Script
- arxiv url: http://arxiv.org/abs/2104.08045v1
- Date: Fri, 16 Apr 2021 11:45:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:36:41.910374
- Title: TeLCoS: OnDevice Text Localization with Clustering of Script
- Title(参考訳): TeLCoS: スクリプトのクラスタリングによるオンデバイステキストローカライゼーション
- Authors: Rachit S Munjal, Manoj Goyal, Rutika Moharir, Sukumar Moharana
- Abstract要約: 低メモリのモバイルデバイス上でのシーンテキストのローカライズと認識は幅広い応用がある。
多言語ローカライズされたテキストのテキスト認識には、OCRシステムは各テキストインスタンスのスクリプトの事前知識が必要です。
新規な構造的類似性に基づくチャネル切断機構を導入し、わずか1.15Mパラメータで効率的なネットワークを構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research in the field of text localization in a resource constrained
environment has made extensive use of deep neural networks. Scene text
localization and recognition on low-memory mobile devices have a wide range of
applications including content extraction, image categorization and keyword
based image search. For text recognition of multi-lingual localized text, the
OCR systems require prior knowledge of the script of each text instance. This
leads to word script identification being an essential step for text
recognition. Most existing methods treat text localization, script
identification and text recognition as three separate tasks. This makes script
identification an overhead in the recognition pipeline. To reduce this
overhead, we propose TeLCoS: OnDevice Text Localization with Clustering of
Script, a multi-task dual branch lightweight CNN network that performs
real-time on device Text Localization and High-level Script Clustering
simultaneously. The network drastically reduces the number of calls to a
separate script identification module, by grouping and identifying some majorly
used scripts through a single feed-forward pass over the localization network.
We also introduce a novel structural similarity based channel pruning mechanism
to build an efficient network with only 1.15M parameters. Experiments on
benchmark datasets suggest that our method achieves state-of-the-art
performance, with execution latency of 60 ms for the entire pipeline on the
Exynos 990 chipset device.
- Abstract(参考訳): 資源制約環境におけるテキストローカライゼーションの分野における最近の研究は、ディープニューラルネットワークを広範囲に活用している。
低メモリモバイルデバイス上でのシーンテキストのローカライゼーションと認識は、コンテンツ抽出、画像分類、キーワードベースの画像検索など幅広い応用がある。
多言語ローカライズされたテキストのテキスト認識には、OCRシステムは各テキストインスタンスのスクリプトの事前知識を必要とする。
これにより、単語のスクリプト識別がテキスト認識に不可欠なステップとなる。
既存のほとんどのメソッドは、テキストローカライゼーション、スクリプト識別、テキスト認識を3つの別々のタスクとして扱う。
これにより、スクリプト識別は認識パイプラインのオーバーヘッドになる。
このオーバーヘッドを軽減するために、TeLCoS: OnDevice Text Localization with Clustering of Script, a multi-task dual branch lightweight CNN network that real-time on device Text Localization and High-level Script Clustering。
ネットワークは、ローカライゼーションネットワーク上の単一のフィードフォワードパスを通じて、主要なスクリプトをグループ化し、識別することで、独立したスクリプト識別モジュールへの呼び出し数を劇的に削減する。
また,115万のパラメータしか持たない効率的なネットワークを構築するために,構造的類似性に基づく新しいチャネルプルーニング機構を導入する。
ベンチマークデータセットを用いた実験は,exynos 990チップセットデバイス上でのパイプライン全体の実行遅延が60ミリ秒という,最先端のパフォーマンスを実現することを示唆する。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Separate Scene Text Detector for Unseen Scripts is Not All You Need [12.848024214330234]
過去10年間で、いくつかのスクリプトが研究コミュニティの注目を集め、優れた検出性能を達成した。
多くのスクリプトは、ディープラーニングベースのシーンテキスト検出のトレーニングのために低リソースである。
新しいスクリプトの個別のトレーニングが必要か?
本稿では,この問題を認識し,トレーニング中に存在しないスクリプトを検知する手法を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:03:05Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting [112.45423990924283]
DeepSolo++は単純なDETRライクなベースラインで、テキスト検出、認識、スクリプト識別を同時に行うために、明示的なポイントを持つ1つのデコーダを単独で使用することができる。
本手法は、英語のシーンだけでなく、複雑なフォント構造と中国語などの1000レベルの文字クラスで書き起こしを習得する。
論文 参考訳(メタデータ) (2023-05-31T15:44:00Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - On-Device Spatial Attention based Sequence Learning Approach for Scene
Text Script Identification [0.0]
シーンテキストスクリプト識別のための,効率的な,リアルタイム,オンデバイス空間アテンションに基づくCNN-LSTMネットワークを提案する。
我々のネットワークはCNNで構成されており、自然画像における空間歪みを低減するための空間アテンションモジュールを備えている。
ネットワークは最先端の手法と競合する精度を達成し、ネットワークサイズは1100万のパラメータと2.7ミリ秒の推論時間で優れている。
論文 参考訳(メタデータ) (2021-12-01T12:16:02Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - Hamming OCR: A Locality Sensitive Hashing Neural Network for Scene Text
Recognition [14.250874536962366]
自己注意に基づくシーンテキスト認識アプローチは、優れたパフォーマンスを実現している。
分類層と埋め込み層の両方におけるパラメータの数は、語彙のサイズに依存しない。
ハンミングOCRは競争結果を達成する。
論文 参考訳(メタデータ) (2020-09-23T01:20:19Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。