論文の概要: RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection
- arxiv url: http://arxiv.org/abs/2105.12789v1
- Date: Wed, 26 May 2021 18:43:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 16:23:16.281886
- Title: RSCA: Real-time Segmentation-based Context-Aware Scene Text Detection
- Title(参考訳): RSCA:リアルタイムセグメンテーションに基づくコンテキスト認識テキスト検出
- Authors: Jiachen Li, Yuan Lin, Rongrong Liu, Chiu Man Ho and Humphrey Shi
- Abstract要約: 任意のシーンテキスト検出のためのリアルタイムコンテキスト認識モデル RSCA を提案する。
これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 14.125634725954848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmentation-based scene text detection methods have been widely adopted for
arbitrary-shaped text detection recently, since they make accurate pixel-level
predictions on curved text instances and can facilitate real-time inference
without time-consuming processing on anchors. However, current
segmentation-based models are unable to learn the shapes of curved texts and
often require complex label assignments or repeated feature aggregations for
more accurate detection. In this paper, we propose RSCA: a Real-time
Segmentation-based Context-Aware model for arbitrary-shaped scene text
detection, which sets a strong baseline for scene text detection with two
simple yet effective strategies: Local Context-Aware Upsampling and Dynamic
Text-Spine Labeling, which model local spatial transformation and simplify
label assignments separately. Based on these strategies, RSCA achieves
state-of-the-art performance in both speed and accuracy, without complex label
assignments or repeated feature aggregations. We conduct extensive experiments
on multiple benchmarks to validate the effectiveness of our method. RSCA-640
reaches 83.9% F-measure at 48.3 FPS on CTW1500 dataset.
- Abstract(参考訳): 近年,曲面テキストインスタンス上で正確なピクセルレベルの予測を行い,アンカーの処理に時間を要することなくリアルタイムの推論を容易にするため,任意の形状のテキスト検出にシーンテキスト検出法が広く採用されている。
しかし、現在のセグメンテーションベースのモデルは、曲面テキストの形状を学べず、しばしばより正確な検出のために複雑なラベル割り当てや繰り返し機能集約を必要とする。
本稿では,局所的な空間的変換をモデル化し,ラベルの割り当てを個別に単純化した,局所的コンテキスト・アウェア・アップサンプリングと動的テキスト・スピネル・ラベリングという2つの手法を用いて,シーンテキスト検出のための強固なベースラインを設定する,任意の形状のシーンテキスト検出のためのリアルタイムセグメンテーションに基づくコンテキスト・アウェアモデルを提案する。
これらの戦略に基づいて、RSCAは複雑なラベルの割り当てや繰り返しの機能集約なしに、スピードと精度の両方で最先端のパフォーマンスを達成する。
提案手法の有効性を検証するため,複数のベンチマーク実験を行った。
RSCA-640は、CTW1500データセット上の48.3 FPSで83.9%のF測定値に達した。
関連論文リスト
- Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文 参考訳(メタデータ) (2023-07-27T17:37:56Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Bidirectional Regression for Arbitrary-Shaped Text Detection [16.30976392505236]
本稿では,前景情報と背景情報の両方をパイプラインに統合した新しいテキストインスタンス表現を提案する。
対応する後処理アルゴリズムは、4つの予測結果を逐次組み合わせてテキストインスタンスを正確に再構築するように設計されている。
本手法は,曲面および多目的テキストデータセットを含む,いくつかの挑戦的なシーンテキストベンチマークで評価する。
論文 参考訳(メタデータ) (2021-07-13T14:29:09Z) - RayNet: Real-time Scene Arbitrary-shape Text Detection with Multiple
Rays [84.15123599963239]
RayNetと呼ばれる任意の形状のテキスト検出のための新しい検出フレームワークを提案する。
RayNet はテキストに適合するために Center Point Set (CPS) と Ray Distance (RD) を使用し、テキストの一般的な位置を決定するために CPS を使用し、RD を CPS と組み合わせてRay Points (RP) を計算し、テキストの正確な形状をローカライズする。
RayNetは、既存の曲面テキストデータセット(CTW1500)と四角テキストデータセット(ICDAR2015)で素晴らしいパフォーマンスを達成する
論文 参考訳(メタデータ) (2021-04-11T03:03:23Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。