論文の概要: EK-Net:Real-time Scene Text Detection with Expand Kernel Distance
- arxiv url: http://arxiv.org/abs/2401.11704v1
- Date: Mon, 22 Jan 2024 06:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:13:03.048240
- Title: EK-Net:Real-time Scene Text Detection with Expand Kernel Distance
- Title(参考訳): ek-net:カーネル距離拡大によるリアルタイムシーンテキスト検出
- Authors: Boyuan Zhu, Fagui Liu, Xi Chen, Quan Tang
- Abstract要約: 本稿では,カーネル間距離を拡大し,それまでの不足を補う,拡張カーネルネットワーク (EK-Net) という新しいアプローチを提案する。
EK-Netは、他の高度な手法と比較して最先端または競争性能を達成する。
- 参考スコア(独自算出の注目度): 10.77443113520233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, scene text detection has received significant attention due to its
wide application. However, accurate detection in complex scenes of multiple
scales, orientations, and curvature remains a challenge. Numerous detection
methods adopt the Vatti clipping (VC) algorithm for multiple-instance training
to address the issue of arbitrary-shaped text. Yet we identify several bias
results from these approaches called the "shrinked kernel". Specifically, it
refers to a decrease in accuracy resulting from an output that overly favors
the text kernel. In this paper, we propose a new approach named Expand Kernel
Network (EK-Net) with expand kernel distance to compensate for the previous
deficiency, which includes three-stages regression to complete instance
detection. Moreover, EK-Net not only realize the precise positioning of
arbitrary-shaped text, but also achieve a trade-off between performance and
speed. Evaluation results demonstrate that EK-Net achieves state-of-the-art or
competitive performance compared to other advanced methods, e.g., F-measure of
85.72% at 35.42 FPS on ICDAR 2015, F-measure of 85.75% at 40.13 FPS on CTW1500.
- Abstract(参考訳): 近年,その適用範囲が広く,シーンテキスト検出が注目されている。
しかし、複数のスケール、向き、曲率の複雑なシーンでの正確な検出は依然として困難である。
多数の検出手法がvatti clipping (vc) アルゴリズムを用いて多重入力訓練を行い、任意の形式のテキストの問題に対処している。
しかし、これらの手法から「スライクカーネル」と呼ばれるいくつかのバイアスが生じる。
具体的には、テキストカーネルを過剰に好む出力によって生じる精度の低下を指す。
本稿では,カーネル距離を拡大して前回の障害を補う,拡張カーネルネットワーク(EK-Net)と呼ばれる新しいアプローチを提案する。
さらに、EK-Netは任意の字型のテキストの位置を正確に認識するだけでなく、性能と速度のトレードオフも達成している。
評価の結果、EK-Netは、他の先進的な手法(例えば、ICDAR 2015では35.42 FPSで85.72%、CTW1500では45.75%、CTW1500では40.13 FPSで85.75%である)と比較して、最先端または競争性能を達成した。
関連論文リスト
- Spotlight Text Detector: Spotlight on Candidate Regions Like a Camera [31.180352896153682]
シーンテキストに有効なスポットライトテキスト検出器(STD)を提案する。
スポットライト校正モジュール(SCM)と多変量情報抽出モジュール(MIEM)で構成される。
我々のSTDは、様々なデータセットの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-09-25T11:19:09Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - Bidirectional Regression for Arbitrary-Shaped Text Detection [16.30976392505236]
本稿では,前景情報と背景情報の両方をパイプラインに統合した新しいテキストインスタンス表現を提案する。
対応する後処理アルゴリズムは、4つの予測結果を逐次組み合わせてテキストインスタンスを正確に再構築するように設計されている。
本手法は,曲面および多目的テキストデータセットを含む,いくつかの挑戦的なシーンテキストベンチマークで評価する。
論文 参考訳(メタデータ) (2021-07-13T14:29:09Z) - CentripetalText: An Efficient Text Instance Representation for Scene
Text Detection [19.69057252363207]
我々はCentripetalText (CT) という名前の効率的なテキストインスタンス表現を提案する。
CTはテキストインスタンスをテキストカーネルと中心シフトの組み合わせに分解する。
シーンテキスト検出の課題に対して,本手法は既存の手法に比べて優れた,あるいは競合的な性能を発揮する。
論文 参考訳(メタデータ) (2021-07-13T09:34:18Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - FC2RN: A Fully Convolutional Corner Refinement Network for Accurate
Multi-Oriented Scene Text Detection [16.722639253025996]
完全畳み込み角補正ネットワーク (FC2RN) が提案されている。
多目的シーンテキストに特化した新規な四角形RoI畳み込み演算により、初期四角形予測を特徴写像に符号化する。
論文 参考訳(メタデータ) (2020-07-10T00:04:24Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network [108.07304516679103]
本稿では,シーンテキストの検出と認識のための適応ベジエ・サーブネットワーク(ABCNet)を提案する。
まず,パラメータ化ベジエ曲線を用いて任意の形状のテキストに適応的に適合する。
標準的なバウンディングボックス検出と比較して、ベジエ曲線検出は無視可能なオーバーヘッドを導入し、効率と精度の両方において本手法の優位性をもたらす。
論文 参考訳(メタデータ) (2020-02-24T12:27:31Z) - PSC-Net: Learning Part Spatial Co-occurrence for Occluded Pedestrian
Detection [144.19392893747582]
本稿では,歩行者検出のための新しいアプローチをPSC-Netと呼ぶ。
PSC-Netは、グラフ畳み込みネットワーク(GCN)を介して、異なる歩行者体のパーツ間の共起情報と部分内共起情報の両方をキャプチャする
我々のPSC-Netは歩行者のトポロジ的構造を利用しており、空間的共起を学習するために、部分ベースのアノテーションや視覚的バウンディングボックス(VBB)情報を必要としない。
論文 参考訳(メタデータ) (2020-01-25T02:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。