論文の概要: Context-Free TextSpotter for Real-Time and Mobile End-to-End Text
Detection and Recognition
- arxiv url: http://arxiv.org/abs/2106.05611v1
- Date: Thu, 10 Jun 2021 09:32:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-12 15:45:41.135586
- Title: Context-Free TextSpotter for Real-Time and Mobile End-to-End Text
Detection and Recognition
- Title(参考訳): リアルタイム・モバイル・エンドテキスト検出・認識のための文脈自由テキストスポッター
- Authors: Ryota Yoshihashi, Tomohiro Tanaka, Kenji Doi, Takumi Fujino, and
Naoaki Yamashita
- Abstract要約: 本稿では、単純な畳み込みと、Context-Free TextSpotterという、いくつかの後処理からなるテキストスポッティング手法を提案する。
標準ベンチマークを用いた実験によると、Context-Free TextSpotterは、300万のパラメータしか持たないGPU上のリアルタイムテキストスポッティングを実現している。
私たちのテキストスポッターは、安価なレイテンシでスマートフォン上で実行できるので、スタンドアロンのOCRアプリケーションを構築するのに役立ちます。
- 参考スコア(独自算出の注目度): 8.480710920894547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the deployment of scene-text spotting systems on mobile platforms,
lightweight models with low computation are preferable. In concept, end-to-end
(E2E) text spotting is suitable for such purposes because it performs text
detection and recognition in a single model. However, current state-of-the-art
E2E methods rely on heavy feature extractors, recurrent sequence modellings,
and complex shape aligners to pursue accuracy, which means their computations
are still heavy. We explore the opposite direction: How far can we go without
bells and whistles in E2E text spotting? To this end, we propose a
text-spotting method that consists of simple convolutions and a few
post-processes, named Context-Free TextSpotter. Experiments using standard
benchmarks show that Context-Free TextSpotter achieves real-time text spotting
on a GPU with only three million parameters, which is the smallest and fastest
among existing deep text spotters, with an acceptable transcription quality
degradation compared to heavier ones. Further, we demonstrate that our text
spotter can run on a smartphone with affordable latency, which is valuable for
building stand-alone OCR applications.
- Abstract(参考訳): モバイルプラットフォームへのシーンテキストスポッティングシステムの導入では,低計算の軽量モデルが望ましい。
概念上、エンドツーエンド(e2e)テキストスポッティングは、1つのモデルでテキストの検出と認識を行うため、このような目的に適している。
しかし、現在の最先端のE2E法は、精度を追求するために重い特徴抽出器、繰り返しシーケンスモデリング、複雑な形状整合器に頼っている。
E2Eテキストスポッティングでベルやホイッスルを使わずにどこまで行くことができるのか?
そこで本研究では、単純な畳み込みと、Context-Free TextSpotterと呼ばれるポストプロセスからなるテキストスポッティング手法を提案する。
標準ベンチマークを用いた実験によれば、コンテキストフリーのtextspotterは、300万のパラメータしか持たないgpu上でリアルタイムテキストスポッティングを実現している。
さらに,当社のテキストスポッターが安価なスマートフォン上で動作できることを実証し,スタンドアロンのocrアプリケーション構築に有用であることを示す。
関連論文リスト
- TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Video text tracking for dense and small text based on pp-yoloe-r and
sort algorithm [0.9137554315375919]
DSTextは1080 * 1920であり、ビデオフレームをいくつかの領域にスライスすると、テキストの空間的相関が破壊される。
テキスト検出には,小物体検出に有効なPP-YOLOE-Rを採用する。
テキスト検出には,高速な推論のためにソートアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-03-31T05:40:39Z) - SPTS v2: Single-Point Scene Text Spotting [146.98118405786445]
新たなフレームワークであるSPTS v2では,単一ポイントアノテーションを用いて高いパフォーマンスのテキストスポッティングモデルをトレーニングすることができる。
SPTS v2は、より少ないパラメータで従来の最先端のシングルポイントテキストスポッターより優れていることを示す。
実験により、シーンテキストスポッティングにおける単一点表現の潜在的好みが示唆される。
論文 参考訳(メタデータ) (2023-01-04T14:20:14Z) - Decoupling Recognition from Detection: Single Shot Self-Reliant Scene
Text Spotter [34.09162878714425]
単発自撮りScene Text Spotter(SRSTS)を提案する。
テキストの検出と認識を並列に行い、共有された正のアンカーポイントでそれらをブリッジする。
本手法では,正確なテキスト境界を検出できない場合でも,テキストインスタンスを正しく認識することができる。
論文 参考訳(メタデータ) (2022-07-15T01:59:14Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。