論文の概要: Arbitrary Shape Text Detection via Boundary Transformer
- arxiv url: http://arxiv.org/abs/2205.05320v4
- Date: Tue, 20 Jun 2023 03:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 06:17:09.303550
- Title: Arbitrary Shape Text Detection via Boundary Transformer
- Title(参考訳): 境界トランスフォーマによる任意形状テキスト検出
- Authors: Shi-Xue Zhang, Chun Yang, Xiaobin Zhu, Xu-Cheng Yin
- Abstract要約: 任意の形状テキスト検出のための境界学習による粗粒度統一フレームワークを提案する。
我々は、イノベーティブな反復的境界変換器を通じて、粗い方法でテキスト境界を明示的にモデル化する。
提案手法は, テキスト境界を直接取得し, 複雑な後処理を放棄し, 効率を向上する。
- 参考スコア(独自算出の注目度): 18.229219867056347
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In arbitrary shape text detection, locating accurate text boundaries is
challenging and non-trivial. Existing methods often suffer from indirect text
boundary modeling or complex post-processing. In this paper, we systematically
present a unified coarse-to-fine framework via boundary learning for arbitrary
shape text detection, which can accurately and efficiently locate text
boundaries without post-processing. In our method, we explicitly model the text
boundary via an innovative iterative boundary transformer in a coarse-to-fine
manner. In this way, our method can directly gain accurate text boundaries and
abandon complex post-processing to improve efficiency. Specifically, our method
mainly consists of a feature extraction backbone, a boundary proposal module,
and an iteratively optimized boundary transformer module. The boundary proposal
module consisting of multi-layer dilated convolutions will compute important
prior information (including classification map, distance field, and direction
field) for generating coarse boundary proposals while guiding the boundary
transformer's optimization. The boundary transformer module adopts an
encoder-decoder structure, in which the encoder is constructed by multi-layer
transformer blocks with residual connection while the decoder is a simple
multi-layer perceptron network (MLP). Under the guidance of prior information,
the boundary transformer module will gradually refine the coarse boundary
proposals via iterative boundary deformation. Furthermore, we propose a novel
boundary energy loss (BEL) which introduces an energy minimization constraint
and an energy monotonically decreasing constraint to further optimize and
stabilize the learning of boundary refinement. Extensive experiments on
publicly available and challenging datasets demonstrate the state-of-the-art
performance and promising efficiency of our method.
- Abstract(参考訳): 任意の形状のテキスト検出では、正確なテキスト境界の特定が困難かつ自明である。
既存の方法は間接的なテキスト境界モデリングや複雑な後処理に悩まされることが多い。
本稿では,任意の形状のテキスト検出のための境界学習により,後処理を伴わずにテキスト境界を正確にかつ効率的に特定できる統一的な粗粒度フレームワークを提案する。
提案手法では,イノベーティブな反復的境界変換器を用いてテキスト境界を粗い方法で明示的にモデル化する。
このようにして、本手法はテキスト境界を直接取得し、複雑な後処理を放棄して効率を向上することができる。
具体的には,主に特徴抽出バックボーン,境界提案モジュール,反復的に最適化された境界変圧器モジュールから構成される。
多層拡張畳み込みからなる境界提案モジュールは、境界トランスフォーマの最適化を導いながら粗い境界提案を生成するために重要な事前情報(分類マップ、距離フィールド、方向フィールドを含む)を計算する。
境界トランスフォーマモジュールは、エンコーダ-デコーダ構造を採用しており、エンコーダは、単純な多層パーセプトロンネットワーク(mlp)である一方、残留接続のある多層トランスフォーマブロックで構成されている。
事前情報のガイダンスにより、境界変圧器モジュールは、反復的な境界変形を通じて、粗い境界提案を徐々に洗練する。
さらに, エネルギー最小化制約とエネルギー単調減少制約を導入する新しい境界エネルギー損失(bel)を提案し, 境界細分化の学習をさらに最適化し, 安定化する。
公開および挑戦的なデータセットに関する大規模な実験は、我々の手法の最先端性能と有望な効率を実証している。
関連論文リスト
- CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer [19.269070203448187]
輪郭変圧器を用いたプログレッシブな輪郭回帰による任意形状のシーンテキスト検出フレームワークCT-Netを提案する。
CT-Netは1秒あたり1.2フレームで86.1、CTW1500とTotal-Textデータセットで10.1FPSで87.8のF測定を実現している。
論文 参考訳(メタデータ) (2023-07-25T08:00:40Z) - SegT: A Novel Separated Edge-guidance Transformer Network for Polyp
Segmentation [10.144870911523622]
本稿では, 効率的なポリープ分割モデルを構築することを目的とした, エッジ誘導変換器 (SegT) ネットワークを提案する。
既存のCNNベースのアプローチよりも堅牢な表現を学習するトランスフォーマーエンコーダが特に適用された。
SegTの有効性を評価するために、5つの挑戦的な公開データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2023-06-19T08:32:05Z) - An Extensible Plug-and-Play Method for Multi-Aspect Controllable Text
Generation [70.77243918587321]
複数の側面で生成されたテキストを制御するマルチアスペクト制御可能なテキスト生成が注目されている。
干渉に対する理論的な下界を提供し、プレフィックスが挿入される層の数に応じて干渉が増加することを経験的に見出した。
トレーニング可能なゲートを用いてプレフィックスの介入を正規化し、増大する干渉を抑制することを提案する。
論文 参考訳(メタデータ) (2022-12-19T11:53:59Z) - Zero Pixel Directional Boundary by Vector Transform [77.63061686394038]
我々は境界を1次元曲面として再解釈し、1対1のベクトル変換関数を定式化し、クラス不均衡問題を完全に回避する境界予測の訓練を可能にする。
我々の問題定式化は、境界の方向推定だけでなく、よりリッチなコンテキスト情報もたらし、もし望めば、訓練時にもゼロピクセルの薄い境界が利用可能となる。
論文 参考訳(メタデータ) (2022-03-16T17:55:31Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection [18.491440228386313]
任意の形状テキスト検出のための新しい適応境界提案ネットワークを提案する。
提案手法は, 任意の形状のテキストに対して, 後処理を伴わずに, 正確な境界を生成できることを学習する。
論文 参考訳(メタデータ) (2021-07-27T08:25:24Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - Active Boundary Loss for Semantic Segmentation [58.72057610093194]
本稿では,セマンティックセグメンテーションのための新しいアクティブ境界損失を提案する。
エンド・ツー・エンドのトレーニングにおいて、予測境界とグランド・トゥルース・バウンダリのアライメントを徐々に促進することができる。
実験結果から, アクティブ境界損失によるトレーニングは, 境界Fスコアと平均インターセクションオーバ・ユニオンを効果的に改善できることが示された。
論文 参考訳(メタデータ) (2021-02-04T15:47:54Z) - Think about boundary: Fusing multi-level boundary information for
landmark heatmap regression [51.48533538153833]
顔の境界とランドマークの関係を探索するための2段階のエンドツーエンドアプローチについて検討する。
境界対応ランドマーク予測は,自己校正境界推定(SCBE)モジュールと境界対応ランドマーク変換(BALT)モジュールの2つのモジュールで構成される。
我々の手法は文学における最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-08-25T10:14:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。