論文の概要: Deformable Kernel Expansion Model for Efficient Arbitrary-shaped Scene
Text Detection
- arxiv url: http://arxiv.org/abs/2303.15737v1
- Date: Tue, 28 Mar 2023 05:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:21:00.221451
- Title: Deformable Kernel Expansion Model for Efficient Arbitrary-shaped Scene
Text Detection
- Title(参考訳): 任意形状テキスト検出のための変形可能なカーネル拡張モデル
- Authors: Tao He and Sheng Huang and Wenhao Tang and Bo Liu
- Abstract要約: Deformable Kernel Expansion (DKE) というシーンテキスト検出器を提案する。
DKEはテキストカーネルとしてスクランクテキスト領域をセグメント化するためにセグメンテーションモジュールを使用し、テキストカーネルの輪郭を拡張してテキスト境界を得る。
CTW1500, Total-Text, MSRA-TD500, ICDAR2015 の実験では,DKE がシーンテキスト検出における精度と効率のトレードオフを達成している。
- 参考スコア(独自算出の注目度): 15.230957275277762
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene text detection is a challenging computer vision task due to the high
variation in text shapes and ratios. In this work, we propose a scene text
detector named Deformable Kernel Expansion (DKE), which incorporates the merits
of both segmentation and contour-based detectors. DKE employs a segmentation
module to segment the shrunken text region as the text kernel, then expands the
text kernel contour to obtain text boundary by regressing the vertex-wise
offsets. Generating the text kernel by segmentation enables DKE to inherit the
arbitrary-shaped text region modeling capability of segmentation-based
detectors. Regressing the kernel contour with some sampled vertices enables DKE
to avoid the complicated pixel-level post-processing and better learn contour
deformation as the contour-based detectors. Moreover, we propose an Optimal
Bipartite Graph Matching Loss (OBGML) that measures the matching error between
the predicted contour and the ground truth, which efficiently minimizes the
global contour matching distance. Extensive experiments on CTW1500, Total-Text,
MSRA-TD500, and ICDAR2015 demonstrate that DKE achieves a good tradeoff between
accuracy and efficiency in scene text detection.
- Abstract(参考訳): シーンのテキスト検出は、テキストの形状や比率のばらつきが高いため、コンピュータビジョンの課題である。
本研究では,セグメンテーションと輪郭に基づく検出器を併用したdeformable kernel expansion (dke) というシーンテキスト検出器を提案する。
DKEはテキストカーネルとしてスクランクテキスト領域をセグメント化するためにセグメンテーションモジュールを使用し、次にテキストカーネルの輪郭を拡張して頂点方向オフセットを回帰することでテキスト境界を得る。
セグメント化によるテキストカーネルの生成により、DKEはセグメント化ベースの検出器の任意の形のテキスト領域モデリング能力を継承できる。
カーネルの輪郭をサンプルの頂点で回帰することで、DKEは複雑なピクセルレベルの後処理を避け、輪郭ベースの検出器として輪郭変形を学習することができる。
さらに、予測された輪郭と地上の真実との一致誤差を計測し、グローバルな輪郭マッチング距離を効率的に最小化する最適二部グラフマッチング損失(OBGML)を提案する。
CTW1500, Total-Text, MSRA-TD500, ICDAR2015 の大規模な実験により,DKE がシーンテキスト検出における精度と効率のトレードオフを達成できることが示された。
関連論文リスト
- Spotlight Text Detector: Spotlight on Candidate Regions Like a Camera [31.180352896153682]
シーンテキストに有効なスポットライトテキスト検出器(STD)を提案する。
スポットライト校正モジュール(SCM)と多変量情報抽出モジュール(MIEM)で構成される。
我々のSTDは、様々なデータセットの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-09-25T11:19:09Z) - Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文 参考訳(メタデータ) (2023-07-27T17:37:56Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T01:44:10Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - PAN++: Towards Efficient and Accurate End-to-End Spotting of
Arbitrarily-Shaped Text [85.7020597476857]
自然場面における任意の形状のテキストを効率的に検出し認識できる,エンドツーエンドのテキストスポッティングフレームワークpan++を提案する。
PAN++は、テキスト行を周辺ピクセルに囲まれたテキストカーネル(中央領域)として再構成するカーネル表現に基づいている。
ピクセルベースの表現として、カーネル表現は1つの完全な畳み込みネットワークによって予測できる。
論文 参考訳(メタデータ) (2021-05-02T07:04:30Z) - RayNet: Real-time Scene Arbitrary-shape Text Detection with Multiple
Rays [84.15123599963239]
RayNetと呼ばれる任意の形状のテキスト検出のための新しい検出フレームワークを提案する。
RayNet はテキストに適合するために Center Point Set (CPS) と Ray Distance (RD) を使用し、テキストの一般的な位置を決定するために CPS を使用し、RD を CPS と組み合わせてRay Points (RP) を計算し、テキストの正確な形状をローカライズする。
RayNetは、既存の曲面テキストデータセット(CTW1500)と四角テキストデータセット(ICDAR2015)で素晴らしいパフォーマンスを達成する
論文 参考訳(メタデータ) (2021-04-11T03:03:23Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。