論文の概要: BPDO:Boundary Points Dynamic Optimization for Arbitrary Shape Scene Text
Detection
- arxiv url: http://arxiv.org/abs/2401.09997v1
- Date: Thu, 18 Jan 2024 14:13:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:22:24.356658
- Title: BPDO:Boundary Points Dynamic Optimization for Arbitrary Shape Scene Text
Detection
- Title(参考訳): BPDO:任意形状シーンテキスト検出のための境界点動的最適化
- Authors: Jinzhi Zheng, Libo Zhang, Yanjun Wu, Chen Zhao
- Abstract要約: 境界点動的最適化(BPDO)を用いた任意形状シーンテキスト検出法を提案する。
モデルはテキスト認識モジュール (TAM) と境界点動的最適化モジュール (DOM) で設計されている。
本論文では,CTW-1500,Total-Text,MSRA-TD500データセットを用いた実験により,最先端アルゴリズムに匹敵する性能が得られた。
- 参考スコア(独自算出の注目度): 19.574306663095243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arbitrary shape scene text detection is of great importance in scene
understanding tasks. Due to the complexity and diversity of text in natural
scenes, existing scene text algorithms have limited accuracy for detecting
arbitrary shape text. In this paper, we propose a novel arbitrary shape scene
text detector through boundary points dynamic optimization(BPDO). The proposed
model is designed with a text aware module (TAM) and a boundary point dynamic
optimization module (DOM). Specifically, the model designs a text aware module
based on segmentation to obtain boundary points describing the central region
of the text by extracting a priori information about the text region. Then,
based on the idea of deformable attention, it proposes a dynamic optimization
model for boundary points, which gradually optimizes the exact position of the
boundary points based on the information of the adjacent region of each
boundary point. Experiments on CTW-1500, Total-Text, and MSRA-TD500 datasets
show that the model proposed in this paper achieves a performance that is
better than or comparable to the state-of-the-art algorithm, proving the
effectiveness of the model.
- Abstract(参考訳): 任意形状シーンテキスト検出はシーン理解タスクにおいて非常に重要である。
自然シーンにおけるテキストの複雑さと多様性のため、既存のシーンテキストアルゴリズムは任意の形状テキストを検出する精度が限られている。
本稿では,境界点動的最適化(BPDO)を用いた任意の形状シーンテキスト検出手法を提案する。
提案モデルは,text aware module (tam) と boundary point dynamic optimization module (dom) を用いて設計されている。
具体的には、テキスト領域に関する優先順位情報を抽出することにより、テキストの中央領域を記述する境界点を得るために、セグメンテーションに基づくテキスト認識モジュールを設計する。
そこで, 変形性を考慮した境界点の動的最適化モデルを提案し, 各境界点の隣接領域の情報に基づいて, 境界点の正確な位置を徐々に最適化する。
ctw-1500、total-text、およびmsra-td500データセットの実験により、本論文で提案するモデルは最先端アルゴリズムよりも優れた性能を達成し、モデルの有効性を証明している。
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Text Region Multiple Information Perception Network for Scene Text
Detection [19.574306663095243]
本稿では,セグメント化に基づくアルゴリズムの検出性能を高めるために,RMIPM (Regional Multiple Information Perception Module) と呼ばれるプラグアンドプレイモジュールを提案する。
具体的には,テキストフォアグラウンド分類マップ,距離マップ,方向マップなど,シーンテキスト領域に関する様々な情報を知覚できる改良されたモジュールを設計する。
論文 参考訳(メタデータ) (2024-01-18T14:36:51Z) - Adaptive Segmentation Network for Scene Text Detection [0.0]
セグメント化に基づくシーンテキスト検出のための背景画素とテキスト画素を区別する識別セグメンテーションしきい値を自動的に学習する。
さらに、マクロサイズと極端アスペクト比でテキストインスタンスをキャプチャするGE-FPN(Global-information Enhanced Feature Pyramid Network)を設計する。
最後に,提案したしきい値学習戦略とテキスト検出構造とともに,シーンテキスト検出のための適応ネットワーク(ASNet)を設計する。
論文 参考訳(メタデータ) (2023-07-27T17:37:56Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Deformable Kernel Expansion Model for Efficient Arbitrary-shaped Scene
Text Detection [15.230957275277762]
Deformable Kernel Expansion (DKE) というシーンテキスト検出器を提案する。
DKEはテキストカーネルとしてスクランクテキスト領域をセグメント化するためにセグメンテーションモジュールを使用し、テキストカーネルの輪郭を拡張してテキスト境界を得る。
CTW1500, Total-Text, MSRA-TD500, ICDAR2015 の実験では,DKE がシーンテキスト検出における精度と効率のトレードオフを達成している。
論文 参考訳(メタデータ) (2023-03-28T05:18:58Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection [18.491440228386313]
任意の形状テキスト検出のための新しい適応境界提案ネットワークを提案する。
提案手法は, 任意の形状のテキストに対して, 後処理を伴わずに, 正確な境界を生成できることを学習する。
論文 参考訳(メタデータ) (2021-07-27T08:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。