論文の概要: Real-time Scene Text Detection Based on Global Level and Word Level
Features
- arxiv url: http://arxiv.org/abs/2203.05251v1
- Date: Thu, 10 Mar 2022 09:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 14:31:45.897072
- Title: Real-time Scene Text Detection Based on Global Level and Word Level
Features
- Title(参考訳): グローバルレベルと単語レベルの特徴に基づくリアルタイムシーンテキスト検出
- Authors: Fuqiang Zhao, Jionghua Yu, Enjun Xing, Wenming Song, and Xue Xu
- Abstract要約: 本稿では,主にグローバルモジュールとRCNNモジュールの2つのモジュールを含むシーンテキスト検出フレームワークGWNetを提案する。
ResNet-50のバックボーンで、MSRA-TD500で88.6%、トータルテキストで87.9%、ICDAR2015で89.2%、CTW-1500で87.5%のF測定を実現した。
- 参考スコア(独自算出の注目度): 0.7285647284266377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is an extremely challenging task to detect arbitrary shape text in natural
scenes on high accuracy and efficiency. In this paper, we propose a scene text
detection framework, namely GWNet, which mainly includes two modules: Global
module and RCNN module. Specifically, Global module improves the adaptive
performance of the DB (Differentiable Binarization) module by adding k
submodule and shift submodule. Two submodules enhance the adaptability of
amplifying factor k, accelerate the convergence of models and help to produce
more accurate detection results. RCNN module fuses global-level and word-level
features. The word-level label is generated by obtaining the minimum
axis-aligned rectangle boxes of the shrunk polygon. In the inference period,
GWNet only uses global-level features to output simple polygon detections.
Experiments on four benchmark datasets, including the MSRA-TD500, Total-Text,
ICDAR2015 and CTW-1500, demonstrate that our GWNet outperforms the
state-of-the-art detectors. Specifically, with a backbone of ResNet-50, we
achieve an F-measure of 88.6% on MSRA- TD500, 87.9% on Total-Text, 89.2% on
ICDAR2015 and 87.5% on CTW-1500.
- Abstract(参考訳): 自然場面で任意の形状のテキストを高精度かつ効率良く検出することは極めて難しい課題である。
本稿では,グローバルモジュールとrcnnモジュールの2つのモジュールを主に含むgwnetというシーンテキスト検出フレームワークを提案する。
具体的には、グローバルモジュールは、kサブモジュールとシフトサブモジュールを追加することで、DBモジュールの適応性を改善する。
2つの部分加群は増幅係数 k の適応性を高め、モデルの収束を加速し、より正確な検出結果を得るのに役立つ。
RCNNモジュールはグローバルレベルとワードレベルの機能を融合する。
単語レベルラベルは、スランクポリゴンの最小軸方向の矩形ボックスを取得して生成される。
推論期間中、GWNetは単純なポリゴン検出を出力するためにグローバルレベルの機能のみを使用する。
MSRA-TD500、Total-Text、ICDAR2015、CTW-1500を含む4つのベンチマークデータセットの実験は、我々のGWNetが最先端の検出器よりも優れていることを示した。
具体的には、ResNet-50のバックボーンを用いて、MSRA-TD500で88.6%、トータルテキストで87.9%、ICDAR2015で89.2%、CTW-1500で87.5%のF測定を達成している。
関連論文リスト
- HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z) - RFL-CDNet: Towards Accurate Change Detection via Richer Feature Learning [39.3740222598949]
RFL-CDNetは、よりリッチな特徴学習を利用して変更検出性能を向上させる新しいフレームワークである。
C2FGモジュールは、以前の粗いスケールからのサイド予測を現在の微細スケールの予測にシームレスに統合することを目的としている。
LFモジュールは各ステージと各空間位置の寄与が独立であると仮定し、複数の予測を融合させる学習可能なモジュールを設計する。
論文 参考訳(メタデータ) (2024-04-27T03:07:07Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - Learning Label Modular Prompts for Text Classification in the Wild [56.66187728534808]
そこで本研究では,非定常学習/テスト段階の異なるテキスト分類手法を提案する。
複雑なタスクをモジュラー成分に分解することで、そのような非定常環境下での堅牢な一般化が可能になる。
テキスト分類タスクのためのラベルモジュール型プロンプトチューニングフレームワークMODcularPROMPTを提案する。
論文 参考訳(メタデータ) (2022-11-30T16:26:38Z) - Global Context Vision Transformers [78.5346173956383]
我々は,コンピュータビジョンのパラメータと計算利用を向上する新しいアーキテクチャであるGC ViT(Global context vision transformer)を提案する。
本稿では,ViTにおける帰納バイアスの欠如に対処し,アーキテクチャにおける可溶性逆残差ブロックを改良して活用することを提案する。
提案したGC ViTは,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-06-20T18:42:44Z) - Focal Modulation Networks [105.93086472906765]
自己注意(SA)は完全に焦点変調ネットワーク(FocalNet)に置き換えられる
ImageNet-1Kの精度は82.3%、83.9%である。
FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。
論文 参考訳(メタデータ) (2022-03-22T17:54:50Z) - iqiyi Submission to ActivityNet Challenge 2019 Kinetics-700 challenge:
Hierarchical Group-wise Attention [13.262667742653633]
TSN、HG-NL、StNetの3つのモデルがモデルアンサンブルステージに関与している。
本稿では,階層型グループワイド非局所(HG-NL)モジュールをビデオ分類のためのフレームレベルの特徴アグリゲーションとして提案する。
ActivityNet 2019 Kinetics-700チャレンジのタスクでは、モデルアンサンブルの後、平均トップ1とトップ5エラーパーセンテージ28.444%を得る。
論文 参考訳(メタデータ) (2020-02-07T17:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。