論文の概要: Edge Approximation Text Detector
- arxiv url: http://arxiv.org/abs/2504.04001v1
- Date: Sat, 05 Apr 2025 00:12:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:43.154014
- Title: Edge Approximation Text Detector
- Title(参考訳): エッジ近似テキスト検出器
- Authors: Chuang Yang, Xu Han, Tao Han, Han Han, Bingxuan Zhao, Qi Wang,
- Abstract要約: テキストの輪郭をコンパクトに適合させるためにEdgeTextを導入し、過剰な輪郭再構築プロセスを緩和する。
この観測にインスパイアされたEdgeTextは、パラメータ化された曲線フィッティング関数を介してエッジ近似問題としてテキスト表現を定式化する。
EdgeTextがテキストエッジに深く依存していることを考えると、双方向拡張知覚(BEP)モジュールが設計されている。
- 参考スコア(独自算出の注目度): 15.968342484512325
- License:
- Abstract: Pursuing efficient text shape representations helps scene text detection models focus on compact foreground regions and optimize the contour reconstruction steps to simplify the whole detection pipeline. Current approaches either represent irregular shapes via box-to-polygon strategy or decomposing a contour into pieces for fitting gradually, the deficiency of coarse contours or complex pipelines always exists in these models. Considering the above issues, we introduce EdgeText to fit text contours compactly while alleviating excessive contour rebuilding processes. Concretely, it is observed that the two long edges of texts can be regarded as smooth curves. It allows us to build contours via continuous and smooth edges that cover text regions tightly instead of fitting piecewise, which helps avoid the two limitations in current models. Inspired by this observation, EdgeText formulates the text representation as the edge approximation problem via parameterized curve fitting functions. In the inference stage, our model starts with locating text centers, and then creating curve functions for approximating text edges relying on the points. Meanwhile, truncation points are determined based on the location features. In the end, extracting curve segments from curve functions by using the pixel coordinate information brought by truncation points to reconstruct text contours. Furthermore, considering the deep dependency of EdgeText on text edges, a bilateral enhanced perception (BEP) module is designed. It encourages our model to pay attention to the recognition of edge features. Additionally, to accelerate the learning of the curve function parameters, we introduce a proportional integral loss (PI-loss) to force the proposed model to focus on the curve distribution and avoid being disturbed by text scales.
- Abstract(参考訳): 効率的なテキスト形状表現の取得は、シーンテキスト検出モデルをコンパクトな前景領域に集中させ、輪郭再構成ステップを最適化し、検出パイプライン全体を単純化するのに役立つ。
現在のアプローチでは、ボックス・ツー・ポリゴンの戦略を介して不規則な形状を表すか、徐々に適合するために輪郭を分解するか、粗い輪郭や複雑なパイプラインの欠如は、常にこれらのモデルに存在する。
上記の問題を考慮し、過剰な輪郭再構築プロセスを緩和しつつ、テキストの輪郭をコンパクトに適合させるEdgeTextを導入する。
具体的には,2つの長辺を滑らかな曲線とみなすことができる。
これにより、テキスト領域をピースワイズではなくしっかりとカバーする連続的かつスムーズなエッジを通じて輪郭を構築することができ、現行モデルの2つの制限を回避することができます。
この観測にインスパイアされたEdgeTextは、パラメータ化された曲線フィッティング関数を介してエッジ近似問題としてテキスト表現を定式化する。
推論段階では,まずテキストセンタの配置から始まり,その点に依存するテキストエッジを近似する曲線関数を作成する。
一方、位置特徴に基づいて切り離し点を決定する。
最後に、トランケーションポイントがもたらす画素座標情報を用いて、曲線関数から曲線セグメントを抽出し、テキスト輪郭を再構成する。
さらに、テキストエッジへのEdgeTextの深い依存を考慮すると、双方向拡張知覚(BEP)モジュールが設計されている。
これは私たちのモデルがエッジ機能の認識に注意を払うことを奨励します。
さらに,曲線関数パラメータの学習を高速化するために,提案したモデルに曲線分布に集中させ,テキストスケールに乱されるのを避けるために,比例積分損失(PI-loss)を導入する。
関連論文リスト
- PBFormer: Capturing Complex Scene Text Shape with Polynomial Band
Transformer [28.52028534365144]
PBFormerは効率的かつ強力なシーンテキスト検出器である。
変圧器を新しいテキスト形状バンド(PB)で統一する。
この単純な操作は、小さなテキストを検出するのに役立つ。
論文 参考訳(メタデータ) (2023-08-29T03:41:27Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Deformable Kernel Expansion Model for Efficient Arbitrary-shaped Scene
Text Detection [15.230957275277762]
Deformable Kernel Expansion (DKE) というシーンテキスト検出器を提案する。
DKEはテキストカーネルとしてスクランクテキスト領域をセグメント化するためにセグメンテーションモジュールを使用し、テキストカーネルの輪郭を拡張してテキスト境界を得る。
CTW1500, Total-Text, MSRA-TD500, ICDAR2015 の実験では,DKE がシーンテキスト検出における精度と効率のトレードオフを達成している。
論文 参考訳(メタデータ) (2023-03-28T05:18:58Z) - Text Spotting Transformers [29.970268691631333]
TESTRは、テキストボックス制御点回帰と文字認識のための単一のエンコーダとデュアルデコーダの上に構築されている。
本稿では、Bezier曲線とアノテーションの両方において、テキストインスタンスに適した制御点の標準表現を示す。
さらに,バウンディングボックス誘導検出プロセス(ボックス・トゥ・ポリゴン)を設計する。
論文 参考訳(メタデータ) (2022-04-05T01:05:31Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Polygonal Point Set Tracking [50.445151155209246]
本稿では,学習に基づく多角形点集合追跡手法を提案する。
私たちのゴールは、ターゲットの輪郭上の対応する点を追跡することです。
本稿では,部分歪みとテキストマッピングに対する本手法の視覚効果について述べる。
論文 参考訳(メタデータ) (2021-05-30T17:12:36Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z) - Quantization in Relative Gradient Angle Domain For Building Polygon
Estimation [88.80146152060888]
CNNアプローチは、しばしばノイズの多いエッジや丸いコーナーを含む不正確な建築形態を生成する。
CNNセグメンテーション出力から角状かつ簡潔なビルディングポリゴンを生成するために,ビルディングコーナーの事前知識を利用するモジュールを提案する。
提案手法は, 円形近似によるCNN出力を, より鮮明な形状の建物足跡に改良することを示した。
論文 参考訳(メタデータ) (2020-07-10T21:33:06Z) - Deep Hough Transform for Semantic Line Detection [70.28969017874587]
自然の場面で意味のある線構造、つまり意味的な線を検知する基本的なタスクに焦点をあてる。
従来の手法は線の性質を無視し、準最適性能をもたらす。
行検出のためのワンショットエンドツーエンド学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-10T13:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。