論文の概要: Weakly-Supervised Arbitrary-Shaped Text Detection with
Expectation-Maximization Algorithm
- arxiv url: http://arxiv.org/abs/2012.00424v1
- Date: Tue, 1 Dec 2020 11:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 10:01:38.575870
- Title: Weakly-Supervised Arbitrary-Shaped Text Detection with
Expectation-Maximization Algorithm
- Title(参考訳): 期待最大化アルゴリズムを用いた弱修正任意字型テキスト検出
- Authors: Mengbiao Zhao, Wei Feng, Fei Yin, Xu-Yao Zhang, Cheng-Lin Liu
- Abstract要約: 弱教師付き任意字型テキスト検出法について, 各種弱監督形式を組み合わせるために検討した。
本稿では,予測最大化(EM)に基づく弱教師付き学習フレームワークを提案する。
提案手法は,3つのベンチマーク上での最先端手法に匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 35.0126313032923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arbitrary-shaped text detection is an important and challenging task in
computer vision. Most existing methods require heavy data labeling efforts to
produce polygon-level text region labels for supervised training. In order to
reduce the cost in data labeling, we study weakly-supervised arbitrary-shaped
text detection for combining various weak supervision forms (e.g., image-level
tags, coarse, loose and tight bounding boxes), which are far easier for
annotation. We propose an Expectation-Maximization (EM) based weakly-supervised
learning framework to train an accurate arbitrary-shaped text detector using
only a small amount of polygon-level annotated data combined with a large
amount of weakly annotated data. Meanwhile, we propose a contour-based
arbitrary-shaped text detector, which is suitable for incorporating
weakly-supervised learning. Extensive experiments on three arbitrary-shaped
text benchmarks (CTW1500, Total-Text and ICDAR-ArT) show that (1) using only
10% strongly annotated data and 90% weakly annotated data, our method yields
comparable performance to state-of-the-art methods, (2) with 100% strongly
annotated data, our method outperforms existing methods on all three
benchmarks. We will make the weakly annotated datasets publicly available in
the future.
- Abstract(参考訳): 任意字型テキスト検出はコンピュータビジョンにおいて重要かつ困難な課題である。
既存の手法の多くは、教師付きトレーニングのためにポリゴンレベルテキスト領域ラベルを作成するために、重いデータラベリングを必要とする。
データラベリングのコストを削減するため、様々な弱い監督形式(画像レベルタグ、粗い、ゆるい、狭いバウンディングボックスなど)を組み合わせるために、弱い教師付き任意のテキスト検出について検討した。
本稿では,少量のポリゴンレベルアノテートデータと大量の弱アノテートデータとを組み合わせることで,正確な任意形状のテキスト検出器を訓練するための,期待最大化(em)ベースの弱教師付き学習フレームワークを提案する。
一方,弱教師付き学習を組み込むのに適した輪郭型任意形テキスト検出器を提案する。
任意の3つのテキストベンチマーク (CTW1500, Total-Text, ICDAR-ArT) において,(1) 10%の強い注釈付きデータと90%の弱い注釈付きデータを用いて, 提案手法は, 100%強い注釈付きデータと同等の性能を示す。
弱いアノテートされたデータセットを将来的に公開する予定です。
関連論文リスト
- Looking at words and points with attention: a benchmark for
text-to-shape coherence [17.340484439401894]
生成した3次元形状と入力テキスト記述とのコヒーレンスの評価には明確なベンチマークが欠如している。
我々は、形状に関連する記述を自動的に洗練するために、大きな言語モデルを使用します。
アプローチを検証するために,ユーザスタディを実施し,既存のメトリクスと定量的に比較する。
改良されたデータセット、新しいメトリック、およびユーザスタディによって検証されたテキスト-形状のペアは、新しくてきめ細かいベンチマークを構成する。
論文 参考訳(メタデータ) (2023-09-14T17:59:48Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Collaborative Propagation on Multiple Instance Graphs for 3D Instance
Segmentation with Single-point Supervision [63.429704654271475]
本稿では,1つのオブジェクトを1つのポイントでラベル付けするだけでよい,弱教師付き手法RWSegを提案する。
これらの疎いラベルにより、セマンティック情報とインスタンス情報を伝達する2つの分岐を持つ統一的なフレームワークを導入する。
具体的には、異なるインスタンスグラフ間の競合を促進するクロスグラフ競合ランダムウォークス(CRW)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-10T02:14:39Z) - Weakly Supervised Scene Text Detection using Deep Reinforcement Learning [6.918282834668529]
強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
RLエージェントが受ける報酬は、ニューラルネットワークによって推定される。
次に,提案するシステムを用いて,実世界のデータに対する弱い半教師付きトレーニングを行う。
論文 参考訳(メタデータ) (2022-01-13T10:15:42Z) - Which and Where to Focus: A Simple yet Accurate Framework for
Arbitrary-Shaped Nearby Text Detection in Scene Images [8.180563824325086]
そこで本研究では,任意の形状の近接するシーンテキスト検出のための簡易かつ効果的な手法を提案する。
OMTS(One-to-Many Training Scheme)は、混乱を排除し、提案がより適切な基盤構造を学べるように設計されている。
また,提案提案に対してより効果的な機能を利用するために,提案機能注意モジュール(PFAM)を提案する。
論文 参考訳(メタデータ) (2021-09-08T06:25:37Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。