論文の概要: Arbitrary Shape Text Detection via Boundary Transformer
- arxiv url: http://arxiv.org/abs/2205.05320v1
- Date: Wed, 11 May 2022 07:59:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 19:35:24.634134
- Title: Arbitrary Shape Text Detection via Boundary Transformer
- Title(参考訳): 境界トランスフォーマによる任意形状テキスト検出
- Authors: Shi-Xue Zhang, Xiaobin Zhu, Chun Yang, Xu-Cheng Yin
- Abstract要約: 境界変換器を内蔵した任意の形状のテキスト検出器を提案する。
本手法は主に境界変圧器モジュールと繰り返し最適化された境界変圧器モジュールから構成される。
公開データセットと挑戦データセットの実験は、我々の手法の最先端性能と有望な効率を実証している。
- 参考スコア(独自算出の注目度): 18.229219867056347
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Arbitrary shape text detection is a challenging task due to its complexity
and variety, e.g, various scales, random rotations, and curve shapes. In this
paper, we propose an arbitrary shape text detector with a boundary transformer,
which can accurately and directly locate text boundaries without any
post-processing. Our method mainly consists of a boundary proposal module and
an iteratively optimized boundary transformer module. The boundary proposal
module consisting of multi-layer dilated convolutions will compute important
prior information (including classification map, distance field, and direction
field) for generating coarse boundary proposals meanwhile guiding the
optimization of boundary transformer. The boundary transformer module adopts an
encoder-decoder structure, in which the encoder is constructed by multi-layer
transformer blocks with residual connection while the decoder is a simple
multi-layer perceptron network (MLP). Under the guidance of prior information,
the boundary transformer module will gradually refine the coarse boundary
proposals via boundary deformation in an iterative manner. Furthermore, we
propose a novel boundary energy loss (BEL) which introduces an energy
minimization constraint and an energy monotonically decreasing constraint for
every boundary optimization step. Extensive experiments on publicly available
and challenging datasets demonstrate the state-of-the-art performance and
promising efficiency of our method.
- Abstract(参考訳): 任意形状テキスト検出は、様々なスケール、ランダムな回転、曲線形状などの複雑さと多様性のために難しい課題である。
本稿では,後処理をすることなくテキスト境界を正確にかつ直接特定できる境界変換器を備えた任意の形状のテキスト検出器を提案する。
本手法は主に境界変圧器モジュールと繰り返し最適化された境界変圧器モジュールからなる。
多層拡張畳み込みからなる境界提案モジュールは、境界トランスの最適化を導く一方、粗い境界提案を生成するために重要な事前情報(分類マップ、距離フィールド、方向フィールドを含む)を計算する。
境界トランスフォーマモジュールは、エンコーダ-デコーダ構造を採用しており、エンコーダは、単純な多層パーセプトロンネットワーク(mlp)である一方、残留接続のある多層トランスフォーマブロックで構成されている。
先行情報の指導の下,境界変圧器モジュールは,境界変形による粗境界提案を段階的に改良する。
さらに、エネルギー最小化制約と、各境界最適化ステップに対するエネルギー単調なエネルギー減少制約を導入する新しい境界エネルギー損失(BEL)を提案する。
公開および挑戦的なデータセットに関する大規模な実験は、我々の手法の最先端性能と有望な効率を実証している。
関連論文リスト
- Error Correction Code Transformer [92.10654749898927]
本稿では,トランスフォーマーアーキテクチャを任意のブロック長で線形符号のソフトデコードに拡張することを提案する。
我々は,各チャネルの出力次元を高次元に符号化し,個別に処理すべきビット情報のより良い表現を行う。
提案手法は、トランスフォーマーの極端なパワーと柔軟性を示し、既存の最先端のニューラルデコーダを、その時間的複雑さのごく一部で大きなマージンで上回る。
論文 参考訳(メタデータ) (2022-03-27T15:25:58Z) - Zero Pixel Directional Boundary by Vector Transform [77.63061686394038]
我々は境界を1次元曲面として再解釈し、1対1のベクトル変換関数を定式化し、クラス不均衡問題を完全に回避する境界予測の訓練を可能にする。
我々の問題定式化は、境界の方向推定だけでなく、よりリッチなコンテキスト情報もたらし、もし望めば、訓練時にもゼロピクセルの薄い境界が利用可能となる。
論文 参考訳(メタデータ) (2022-03-16T17:55:31Z) - EDTER: Edge Detection with Transformer [71.83960813880843]
本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-16T11:55:55Z) - Inverse design of photonic devices with strict foundry fabrication
constraints [55.41644538483948]
本稿では,ナノフォトニクス素子の逆設計法を提案し,設計が厳密な長さの制約を満たすことを保証した。
本手法の性能と信頼性を,いくつかの共通集積フォトニック部品を設計することによって実証する。
論文 参考訳(メタデータ) (2022-01-31T02:27:25Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Adaptive Boundary Proposal Network for Arbitrary Shape Text Detection [18.491440228386313]
任意の形状テキスト検出のための新しい適応境界提案ネットワークを提案する。
提案手法は, 任意の形状のテキストに対して, 後処理を伴わずに, 正確な境界を生成できることを学習する。
論文 参考訳(メタデータ) (2021-07-27T08:25:24Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。