論文の概要: Adaptive Segmentation Network for Scene Text Detection
- arxiv url: http://arxiv.org/abs/2307.15029v2
- Date: Wed, 16 Aug 2023 13:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 16:22:42.682850
- Title: Adaptive Segmentation Network for Scene Text Detection
- Title(参考訳): シーンテキスト検出のための適応セグメンテーションネットワーク
- Authors: Guiqin Zhao
- Abstract要約: セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inspired by deep convolution segmentation algorithms, scene text detectors
break the performance ceiling of datasets steadily. However, these methods
often encounter threshold selection bottlenecks and have poor performance on
text instances with extreme aspect ratios. In this paper, we propose to
automatically learn the discriminate segmentation threshold, which
distinguishes text pixels from background pixels for segmentation-based scene
text detectors and then further reduces the time-consuming manual parameter
adjustment. Besides, we design a Global-information Enhanced Feature Pyramid
Network (GE-FPN) for capturing text instances with macro size and extreme
aspect ratios. Following the GE-FPN, we introduce a cascade optimization
structure to further refine the text instances. Finally, together with the
proposed threshold learning strategy and text detection structure, we design an
Adaptive Segmentation Network (ASNet) for scene text detection. Extensive
experiments are carried out to demonstrate that the proposed ASNet can achieve
the state-of-the-art performance on four text detection benchmarks, i.e., ICDAR
2015, MSRA-TD500, ICDAR 2017 MLT and CTW1500. The ablation experiments also
verify the effectiveness of our contributions.
- Abstract(参考訳): 深層畳み込みセグメンテーションアルゴリズムにインスパイアされたシーンテキスト検出器は、データセットのパフォーマンス天井を着実に破壊する。
しかし、これらの手法はしばしばしきい値選択のボトルネックに遭遇し、極端なアスペクト比を持つテキストインスタンスでは性能が劣る。
本稿では,セグメンテーションに基づくテキスト検出のための背景画素とテキスト画素を区別するセグメンテーション閾値を自動的に学習し,さらに時間を要する手動パラメータ調整を低減させる。
また,グローバル情報強化機能ピラミッドネットワーク (ge-fpn) を設計し,マクロサイズと極端アスペクト比でテキストをキャプチャする。
GE-FPNの後、テキストインスタンスをさらに洗練するためにカスケード最適化構造を導入する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応セグメンテーションネットワーク(ASNet)を設計する。
提案したASNetは, ICDAR 2015, MSRA-TD500, ICDAR 2017 MLT, CTW1500の4つのテキスト検出ベンチマークにおいて, 最先端のパフォーマンスを達成できることを示した。
アブレーション実験は,我々の貢献の有効性も検証した。
関連論文リスト
- Text Region Multiple Information Perception Network for Scene Text
Detection [19.574306663095243]
本稿では,セグメント化に基づくアルゴリズムの検出性能を高めるために,RMIPM (Regional Multiple Information Perception Module) と呼ばれるプラグアンドプレイモジュールを提案する。
具体的には,テキストフォアグラウンド分類マップ,距離マップ,方向マップなど,シーンテキスト領域に関する様々な情報を知覚できる改良されたモジュールを設計する。
論文 参考訳(メタデータ) (2024-01-18T14:36:51Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection [14.125634725954848]
任意のシーンテキスト検出のためのリアルタイムコンテキスト認識モデル RSCA を提案する。
これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-05-26T18:43:17Z) - RayNet: Real-time Scene Arbitrary-shape Text Detection with Multiple
Rays [84.15123599963239]
RayNetと呼ばれる任意の形状のテキスト検出のための新しい検出フレームワークを提案する。
RayNet はテキストに適合するために Center Point Set (CPS) と Ray Distance (RD) を使用し、テキストの一般的な位置を決定するために CPS を使用し、RD を CPS と組み合わせてRay Points (RP) を計算し、テキストの正確な形状をローカライズする。
RayNetは、既存の曲面テキストデータセット(CTW1500)と四角テキストデータセット(ICDAR2015)で素晴らしいパフォーマンスを達成する
論文 参考訳(メタデータ) (2021-04-11T03:03:23Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting [71.6244869235243]
ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
論文 参考訳(メタデータ) (2020-07-18T17:25:50Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。