論文の概要: Polygon-free: Unconstrained Scene Text Detection with Box Annotations
- arxiv url: http://arxiv.org/abs/2011.13307v3
- Date: Thu, 26 May 2022 10:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 09:05:05.891949
- Title: Polygon-free: Unconstrained Scene Text Detection with Box Annotations
- Title(参考訳): polygon-free:ボックスアノテーションによる制約なしシーンテキスト検出
- Authors: Weijia Wu, Enze Xie, Ruimao Zhang, Wenhai Wang, Hong Zhou, Ping Luo
- Abstract要約: 本研究では,ポリゴンフリー(PF)と呼ばれる制約のないテキスト検出システムを提案する。
PFはアップライトなバウンディングボックスアノテーションでのみトレーニングされる。
実験では、PFが一般的な検出器を組み合わせることで驚くほど高品質なピクセルレベルの結果が得られることを示した。
- 参考スコア(独自算出の注目度): 39.74109294551322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although a polygon is a more accurate representation than an upright bounding
box for text detection, the annotations of polygons are extremely expensive and
challenging. Unlike existing works that employ fully-supervised training with
polygon annotations, this study proposes an unconstrained text detection system
termed Polygon-free (PF), in which most existing polygon-based text detectors
(e.g., PSENet [33],DB [16]) are trained with only upright bounding box
annotations. Our core idea is to transfer knowledge from synthetic data to real
data to enhance the supervision information of upright bounding boxes. This is
made possible with a simple segmentation network, namely Skeleton Attention
Segmentation Network (SASN), that includes three vital components (i.e.,
channel attention, spatial attention and skeleton attention map) and one soft
cross-entropy loss. Experiments demonstrate that the proposed Polygonfree
system can combine general detectors (e.g., EAST, PSENet, DB) to yield
surprisingly high-quality pixel-level results with only upright bounding box
annotations on a variety of datasets (e.g., ICDAR2019-Art, TotalText,
ICDAR2015). For example, without using polygon annotations, PSENet achieves an
80.5% F-score on TotalText [3] (vs. 80.9% of fully supervised counterpart),
31.1% better than training directly with upright bounding box annotations, and
saves 80%+ labeling costs. We hope that PF can provide a new perspective for
text detection to reduce the labeling costs. The code can be found at
https://github.com/weijiawu/Unconstrained-Text-Detection-with-Box-Supervisionand-Dynamic-Self-Traini ng.
- Abstract(参考訳): ポリゴンはテキスト検出のための直立バウンディングボックスよりも正確な表現であるが、ポリゴンのアノテーションは非常に高価で困難である。
本研究は,ポリゴンアノテーションを用いた完全教師付きトレーニングを行う既存の作業と異なり,ポリゴンフリー(PF)と呼ばれる制約のないテキスト検出システムを提案し,既存のポリゴンベースのテキスト検出装置(PSENet[33],DB[16])のほとんどが,直立境界ボックスアノテーションのみを用いてトレーニングされている。
我々の核となるアイデアは、合成データから実データへ知識を転送し、直立バウンディングボックスの監督情報を強化することです。
これは単純なセグメンテーションネットワーク、すなわちSkeleton Attention Segmentation Network (SASN)によって実現され、3つの重要なコンポーネント(チャネルアテンション、空間アテンション、骨格アテンションマップ)と1つのソフトなクロスエントロピーロスを含む。
実験により、提案されたポリゴンフリーシステムは、一般的な検出器(例えば、EAST、PSENet、DB)を組み合わせることで、様々なデータセット(例えば、ICDAR2019-Art、TotalText、ICDAR2015)上のアップライト境界ボックスアノテーションだけで驚くほど高品質なピクセルレベルの結果が得られることが示された。
例えば、polygonアノテーションを使わずに、psenetはtotaltext [3]で80.5%のf-score(全教師の80.9%)を達成し、31.1%はアップライトバウンディングボックスアノテーションで直接トレーニングするよりも優れており、80%以上のラベリングコストを削減している。
PFがテキスト検出の新しい視点を提供し、ラベリングコストを削減できることを願っている。
コードはhttps://github.com/weijiawu/Unconstrained-Text-Detection-with-Box-Supervisionand-Dynamic-Self-Traini ngで見ることができる。
関連論文リスト
- Progressive Evolution from Single-Point to Polygon for Scene Text [79.29097971932529]
単点をコンパクトな多角形に効率よく変換できるPoint2Polygonを導入する。
まず認識信頼度に基づいてアンカーポイントを作成し,ポリゴンを垂直に水平に精製する。
また,本手法により生成したポリゴンを用いた学習において,GTと比較して精度の86%を達成し,さらに,提案したPoint2Polygonをシームレスに統合することにより,単一点スポッターにポリゴンの生成を促進させることができた。
論文 参考訳(メタデータ) (2023-12-21T12:08:27Z) - LP-OVOD: Open-Vocabulary Object Detection by Linear Probing [8.202076059391315]
オブジェクト検出器は、トレーニングにおいて見知らぬクラスの例をラベル付けせずに、テストイメージ内の見えないクラスと見えないクラスの両方を識別する必要がある。
OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。
オーバー・アンド・アンダー・カバーされたオブジェクト・ボックスのような多くの低品質なボックスは、CLIPが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質なボックスと同等のスコアを持つ。
そこで我々は,低品質なボックスをトレーニングによって破棄するLP-OVODを提案する。
論文 参考訳(メタデータ) (2023-10-26T02:37:08Z) - PBFormer: Capturing Complex Scene Text Shape with Polynomial Band
Transformer [28.52028534365144]
PBFormerは効率的かつ強力なシーンテキスト検出器である。
変圧器を新しいテキスト形状バンド(PB)で統一する。
この単純な操作は、小さなテキストを検出するのに役立つ。
論文 参考訳(メタデータ) (2023-08-29T03:41:27Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Grasp-Oriented Fine-grained Cloth Segmentation without Real Supervision [66.56535902642085]
本稿では, 深度画像のみを用いて, 変形した衣服のきめ細かい領域検出の問題に取り組む。
最大で6つの意味領域を定義し, 首の縁, スリーブカフ, ヘム, 上と下をつかむ点を含む。
これらの部品のセグメント化とラベル付けを行うために,U-net ベースのネットワークを導入する。
合成データのみを用いてネットワークをトレーニングし、提案したDAが実データでトレーニングしたモデルと競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:31:20Z) - Dense Supervision Propagation for Weakly Supervised Semantic Segmentation on 3D Point Clouds [59.63231842439687]
意味点クラウドセグメンテーションネットワークをトレーニングする。
同様の特徴を伝達し、2つのサンプルにまたがる勾配を再現するクロスサンプル機能再配置モジュールを提案する。
ラベルの10%と1%しか持たない弱教師付き手法では、完全教師付き手法と互換性のある結果が得られる。
論文 参考訳(メタデータ) (2021-07-23T14:34:57Z) - Inter Extreme Points Geodesics for Weakly Supervised Segmentation [2.5772212255258777]
$textitInExtremIS$は、ディープイメージセグメンテーションネットワークをトレーニングするための弱い教師付き3Dアプローチである。
私たちの完全自動メソッドはエンドツーエンドで訓練されており、テストタイムアノテーションは一切必要ありません。
論文 参考訳(メタデータ) (2021-07-01T16:16:50Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - Weakly-Supervised Arbitrary-Shaped Text Detection with
Expectation-Maximization Algorithm [35.0126313032923]
弱教師付き任意字型テキスト検出法について, 各種弱監督形式を組み合わせるために検討した。
本稿では,予測最大化(EM)に基づく弱教師付き学習フレームワークを提案する。
提案手法は,3つのベンチマーク上での最先端手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2020-12-01T11:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。