論文の概要: PBFormer: Capturing Complex Scene Text Shape with Polynomial Band
Transformer
- arxiv url: http://arxiv.org/abs/2308.15004v1
- Date: Tue, 29 Aug 2023 03:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 16:01:53.684572
- Title: PBFormer: Capturing Complex Scene Text Shape with Polynomial Band
Transformer
- Title(参考訳): PBFormer:ポリノミアルバンドトランスを用いた複雑なシーンテキスト形状のキャプチャ
- Authors: Ruijin Liu, Ning Lu, Dapeng Chen, Cheng Li, Zejian Yuan, Wei Peng
- Abstract要約: PBFormerは効率的かつ強力なシーンテキスト検出器である。
変圧器を新しいテキスト形状バンド(PB)で統一する。
この単純な操作は、小さなテキストを検出するのに役立つ。
- 参考スコア(独自算出の注目度): 28.52028534365144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present PBFormer, an efficient yet powerful scene text detector that
unifies the transformer with a novel text shape representation Polynomial Band
(PB). The representation has four polynomial curves to fit a text's top,
bottom, left, and right sides, which can capture a text with a complex shape by
varying polynomial coefficients. PB has appealing features compared with
conventional representations: 1) It can model different curvatures with a fixed
number of parameters, while polygon-points-based methods need to utilize a
different number of points. 2) It can distinguish adjacent or overlapping texts
as they have apparent different curve coefficients, while segmentation-based or
points-based methods suffer from adhesive spatial positions. PBFormer combines
the PB with the transformer, which can directly generate smooth text contours
sampled from predicted curves without interpolation. A parameter-free
cross-scale pixel attention (CPA) module is employed to highlight the feature
map of a suitable scale while suppressing the other feature maps. The simple
operation can help detect small-scale texts and is compatible with the
one-stage DETR framework, where no postprocessing exists for NMS. Furthermore,
PBFormer is trained with a shape-contained loss, which not only enforces the
piecewise alignment between the ground truth and the predicted curves but also
makes curves' positions and shapes consistent with each other. Without bells
and whistles about text pre-training, our method is superior to the previous
state-of-the-art text detectors on the arbitrary-shaped text datasets.
- Abstract(参考訳): 本稿では,新しいテキスト形状表現多項式バンド(pb)でトランスフォーマを統一する効率的なシーンテキスト検出器pbformerを提案する。
この表現は、テキストの上端、下端、左端、右端に適合する4つの多項式曲線を持ち、多項式係数の変化によって複雑な形状のテキストをキャプチャできる。
PBは従来の表現に比べて魅力的である。
1) 一定数のパラメータで異なる曲率をモデル化できるが, 多角点法では異なる点数を用いる必要がある。
2) 隣接するテキストや重なり合うテキストは, 曲線係数が異なっており, セグメンテーションベースや点ベースでは粘着性のある空間的位置にあると区別できる。
PBFormerはPBと変換器を組み合わせることで、補間なしで予測曲線からサンプリングされた滑らかなテキスト輪郭を直接生成することができる。
パラメータフリーなクロススケール画素アテンション(CPA)モジュールを用いて、他の特徴マップを抑えながら適切なスケールの特徴マップをハイライトする。
この単純な操作は、小規模テキストの検出に役立ち、NMSのための後処理が存在しないワンステージのDETRフレームワークと互換性がある。
さらに、PBFormerは、基底の真理と予測された曲線との断片的な整合を強制するだけでなく、曲線の位置と形状を互いに整合させる形状の損失で訓練される。
テキスト事前学習に関するベルやホイッスルがなければ,任意の形式のテキストデータセット上の最先端のテキスト検出器よりも優れた手法である。
関連論文リスト
- Differentiable Registration of Images and LiDAR Point Clouds with
VoxelPoint-to-Pixel Matching [58.10418136917358]
カメラからの2D画像とLiDARからの3Dポイントクラウドの間のクロスモダリティ登録は、コンピュータビジョンとロボットトレーニングにおいて重要な課題である。
ニューラルネットワークで学習した点パターンと画素パターンのマッチングによる2次元3次元対応の推定
我々は、異なる潜在画素空間を介して3次元特徴を表現するために、構造化されたモダリティマッチングソルバを学習する。
論文 参考訳(メタデータ) (2023-12-07T05:46:10Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - ISS: Image as Stetting Stone for Text-Guided 3D Shape Generation [91.37036638939622]
本稿では,2つのモダリティを接続するステップストーンとして2次元画像を導入することで,その課題に対して,イメージ・アズ・ステッピング・ストーン(ISS)と呼ばれる新しいフレームワークを提案する。
私たちの重要な貢献は、CLIP機能を形状にマッピングする2段階の機能空間アライメントアプローチです。
出力形状を新しいテクスチャで表現するために,テキストガイド型スタイル化モジュールを定式化する。
論文 参考訳(メタデータ) (2022-09-09T06:54:21Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Text Spotting Transformers [29.970268691631333]
TESTRは、テキストボックス制御点回帰と文字認識のための単一のエンコーダとデュアルデコーダの上に構築されている。
本稿では、Bezier曲線とアノテーションの両方において、テキストインスタンスに適した制御点の標準表現を示す。
さらに,バウンディングボックス誘導検出プロセス(ボックス・トゥ・ポリゴン)を設計する。
論文 参考訳(メタデータ) (2022-04-05T01:05:31Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Fourier Contour Embedding for Arbitrary-Shaped Text Detection [47.737805731529455]
任意の形状のテキスト輪郭をコンパクトシグネチャとして表現する新しい手法を提案する。
FCEは,高度に湾曲した形状であっても,シーンテキストの輪郭に適合する正確かつ堅牢であることを示す。
我々のFCENetはCTW1500やTotal-Textの最先端(SOTA)手法よりも優れている。
論文 参考訳(メタデータ) (2021-04-21T10:21:57Z) - BOTD: Bold Outline Text Detector [85.33700624095181]
我々はBold Outline Text Detector(BOTD)と呼ばれる新しい1段テキスト検出器を提案する。
BOTDは、モデルの複雑さを低くして任意の形のテキストを処理できる。
3つの実世界のベンチマークによる実験結果から,BOTDの最先端性能が示された。
論文 参考訳(メタデータ) (2020-11-30T11:54:14Z) - TextRay: Contour-based Geometric Modeling for Arbitrary-shaped Scene
Text Detection [20.34326396800748]
本研究では,トップダウンの輪郭型幾何モデリングと幾何パラメータ学習を行う任意の形状のテキスト検出手法であるTextRayを提案する。
いくつかのベンチマークデータセットの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2020-08-11T16:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。