論文の概要: FAST: Searching for a Faster Arbitrarily-Shaped Text Detector with
Minimalist Kernel Representation
- arxiv url: http://arxiv.org/abs/2111.02394v1
- Date: Wed, 3 Nov 2021 17:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 13:45:29.408996
- Title: FAST: Searching for a Faster Arbitrarily-Shaped Text Detector with
Minimalist Kernel Representation
- Title(参考訳): FAST:ミニマリストカーネル表現を用いた高速任意形テキスト検出器の探索
- Authors: Zhe Chen, Wenhai Wang, Enze Xie, ZhiBo Yang, Tong Lu, Ping Luo
- Abstract要約: 我々は、FAST(高速任意形テキスト検出器)と呼ばれる正確で効率的なシーンテキスト検出フレームワークを提案する。
我々は、ネットワーク検索空間を設計し、テキスト検出に適した報酬関数を慎重に検索する。
これら2つの設計に相応しいFASTは、いくつかの挑戦的なデータセットにおいて、正確性と効率の優れたトレードオフを組み立てている。
- 参考スコア(独自算出の注目度): 43.19519836204423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an accurate and efficient scene text detection framework, termed
FAST (i.e., faster arbitrarily-shaped text detector). Different from recent
advanced text detectors that used hand-crafted network architectures and
complicated post-processing, resulting in low inference speed, FAST has two new
designs. (1) We search the network architecture by designing a network search
space and reward function carefully tailored for text detection, leading to
more powerful features than most networks that are searched for image
classification. (2) We design a minimalist representation (only has 1-channel
output) to model text with arbitrary shape, as well as a GPU-parallel
post-processing to efficiently assemble text lines with negligible time
overhead. Benefiting from these two designs, FAST achieves an excellent
trade-off between accuracy and efficiency on several challenging datasets. For
example, FAST-A0 yields 81.4% F-measure at 152 FPS on Total-Text, outperforming
the previous fastest method by 1.5 points and 70 FPS in terms of accuracy and
speed. With TensorRT optimization, the inference speed can be further
accelerated to over 600 FPS.
- Abstract(参考訳): 本研究では,FAST(高速な任意形テキスト検出器)と呼ばれる高精度かつ効率的なシーンテキスト検出フレームワークを提案する。
手作りのネットワークアーキテクチャと複雑な後処理を使用した最近の高度なテキスト検出器とは異なり、FASTは2つの新しい設計を持つ。
1) ネットワーク検索空間を設計してネットワークアーキテクチャを検索し, テキスト検出に適した報奨関数を慎重に設計し, 画像分類を行うほとんどのネットワークよりも強力な特徴を与える。
2) 任意の形状のテキストをモデル化するミニマリスト表現(1チャネル出力のみ)を設計し,GPU並列後処理によりテキスト行を無視できない時間オーバーヘッドで効率的に組み立てる。
この2つの設計の利点により、fastはいくつかの挑戦的なデータセットで精度と効率の優れたトレードオフを実現している。
例えば、FAST-A0はトータルテキスト上で152FPSで81.4%のF値を示し、精度と速度で1.5ポイント、70FPSよりも高速である。
TensorRTの最適化により、推論速度は600FPS以上に加速できる。
関連論文リスト
- FastTextSpotter: A High-Efficiency Transformer for Multilingual Scene Text Spotting [14.054151352916296]
本稿では,Swin Transformerの視覚バックボーンとTransformer-Decoderアーキテクチャを統合したFastTextSpotterを提案する。
FastTextSpotterは、通常のテキストのICDAR2015や任意の形のテキストのCTW1500、TotalTextなど、複数のデータセットで検証されている。
以上の結果から,FastTextSpotterは多言語シーンテキストの検出と認識において,より優れた精度を実現することが示唆された。
論文 参考訳(メタデータ) (2024-08-27T12:28:41Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - MT: Multi-Perspective Feature Learning Network for Scene Text Detection [9.282254601960613]
軽量検出フレームワークは、高い検出精度を維持しつつ推論プロセスを高速化するように設計されている。
マスクを正確にセグメンテーションするための識別表現をより正確に学習するために,マルチパースペクティブな特徴モジュールを提案する。
MTの有効性を実世界の4つのシーンテキストデータセットで評価した。
論文 参考訳(メタデータ) (2021-05-12T06:41:34Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - Sequential End-to-end Network for Efficient Person Search [7.3658840620058115]
人物検出と人物再識別(re-ID)を共同で解決することを目的とした人物探索
既存の研究は、Faster R-CNNに基づくエンドツーエンドネットワークを設計している。
優れた特徴を抽出するためのシーケンシャルエンドツーエンドネットワーク(SeqNet)を提案する。
論文 参考訳(メタデータ) (2021-03-18T10:28:24Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network [108.07304516679103]
本稿では,シーンテキストの検出と認識のための適応ベジエ・サーブネットワーク(ABCNet)を提案する。
まず,パラメータ化ベジエ曲線を用いて任意の形状のテキストに適応的に適合する。
標準的なバウンディングボックス検出と比較して、ベジエ曲線検出は無視可能なオーバーヘッドを導入し、効率と精度の両方において本手法の優位性をもたらす。
論文 参考訳(メタデータ) (2020-02-24T12:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。