論文の概要: Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion
- arxiv url: http://arxiv.org/abs/2202.10304v1
- Date: Mon, 21 Feb 2022 15:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 09:31:22.920064
- Title: Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion
- Title(参考訳): 可変二元化と適応スケール融合による実時間シーンテキスト検出
- Authors: Minghui Liao, Zhisheng Zou, Zhaoyi Wan, Cong Yao, Xiang Bai
- Abstract要約: セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
- 参考スコア(独自算出の注目度): 62.269219152425556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, segmentation-based scene text detection methods have drawn
extensive attention in the scene text detection field, because of their
superiority in detecting the text instances of arbitrary shapes and extreme
aspect ratios, profiting from the pixel-level descriptions. However, the vast
majority of the existing segmentation-based approaches are limited to their
complex post-processing algorithms and the scale robustness of their
segmentation models, where the post-processing algorithms are not only isolated
to the model optimization but also time-consuming and the scale robustness is
usually strengthened by fusing multi-scale feature maps directly. In this
paper, we propose a Differentiable Binarization (DB) module that integrates the
binarization process, one of the most important steps in the post-processing
procedure, into a segmentation network. Optimized along with the proposed DB
module, the segmentation network can produce more accurate results, which
enhances the accuracy of text detection with a simple pipeline. Furthermore, an
efficient Adaptive Scale Fusion (ASF) module is proposed to improve the scale
robustness by fusing features of different scales adaptively. By incorporating
the proposed DB and ASF with the segmentation network, our proposed scene text
detector consistently achieves state-of-the-art results, in terms of both
detection accuracy and speed, on five standard benchmarks.
- Abstract(参考訳): 近年,画素レベルの記述から得られる任意の形状と極端なアスペクト比のテキストインスタンスの検出に優れており,シーンテキスト検出分野において,セグメント化に基づくシーンテキスト検出手法が注目されている。
しかし、既存のセグメンテーションベースのアプローチの大部分は、複雑な後処理アルゴリズムとセグメンテーションモデルのスケールロバスト性に限定されており、後処理アルゴリズムはモデル最適化に分離されるだけでなく、時間も消費し、スケールロバスト性は通常、マルチスケールのフィーチャマップを直接使用することで強化される。
本稿では,後処理における最も重要なステップである二項化処理をセグメンテーションネットワークに統合する,微分可能二項化(DB)モジュールを提案する。
提案したDBモジュールとともに最適化されたセグメンテーションネットワークにより、より正確な結果が得られ、単純なパイプラインによるテキスト検出の精度が向上する。
さらに、異なるスケールの特徴を適応的に融合させることにより、スケール堅牢性を向上させるために、効率的な適応スケール融合(ASF)モジュールを提案する。
提案するdbとasfをセグメンテーションネットワークに組み込むことにより,提案するシーンテキスト検出装置は,5つの標準ベンチマークにおいて,検出精度と速度の両面で,常に最先端の結果が得られる。
関連論文リスト
- Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文 参考訳(メタデータ) (2023-07-27T17:37:56Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection [14.125634725954848]
任意のシーンテキスト検出のためのリアルタイムコンテキスト認識モデル RSCA を提案する。
これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-05-26T18:43:17Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - Learning Robust Feature Representations for Scene Text Detection [0.0]
本稿では、条件付きログを最大化するために、損失から導かれるネットワークアーキテクチャを提案する。
潜伏変数の層を複数の層に拡張することで、ネットワークは大規模に堅牢な機能を学ぶことができる。
実験では,提案アルゴリズムはリコール法と精度の両面で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-05-26T01:06:47Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。