論文の概要: Weakly-Supervised Text Instance Segmentation
- arxiv url: http://arxiv.org/abs/2303.10848v1
- Date: Mon, 20 Mar 2023 03:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 17:01:51.109741
- Title: Weakly-Supervised Text Instance Segmentation
- Title(参考訳): 弱教師付きテキストインスタンスセグメンテーション
- Authors: Xinyan Zu, Haiyang Yu, Bin Li, Xiangyang Que
- Abstract要約: テキスト認識とテキストセグメンテーションをブリッジすることで、弱教師付きテキストインスタンスセグメンテーションを初めて実施する。
提案手法は, ICDAR13-FST(18.95$%$改善)ベンチマークとTextSeg (17.80$%$改善)ベンチマークにおいて, 弱教師付きインスタンスセグメンテーション法を著しく上回っている。
- 参考スコア(独自算出の注目度): 6.802278024510211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text segmentation is a challenging vision task with many downstream
applications. Current text segmentation methods require pixel-level
annotations, which are expensive in the cost of human labor and limited in
application scenarios. In this paper, we take the first attempt to perform
weakly-supervised text instance segmentation by bridging text recognition and
text segmentation. The insight is that text recognition methods provide precise
attention position of each text instance, and the attention location can feed
to both a text adaptive refinement head (TAR) and a text segmentation head.
Specifically, the proposed TAR generates pseudo labels by performing two-stage
iterative refinement operations on the attention location to fit the accurate
boundaries of the corresponding text instance. Meanwhile, the text segmentation
head takes the rough attention location to predict segmentation masks which are
supervised by the aforementioned pseudo labels. In addition, we design a
mask-augmented contrastive learning by treating our segmentation result as an
augmented version of the input text image, thus improving the visual
representation and further enhancing the performance of both recognition and
segmentation. The experimental results demonstrate that the proposed method
significantly outperforms weakly-supervised instance segmentation methods on
ICDAR13-FST (18.95$\%$ improvement) and TextSeg (17.80$\%$ improvement)
benchmarks.
- Abstract(参考訳): テキストセグメンテーションは多くの下流アプリケーションで難しい視覚タスクである。
現在のテキストセグメンテーションにはピクセルレベルのアノテーションが必要で、人的労力のコストが高く、アプリケーションシナリオに制限がある。
本稿では,テキスト認識とテキストセグメンテーションを橋渡しすることで,弱教師付きテキストインスタンスセグメンテーションを行う最初の試みを行う。
この知見は、テキスト認識手法が各テキストインスタンスの正確な注意位置を提供し、注意位置がテキスト適応精錬ヘッド(TAR)とテキストセグメンテーションヘッドの両方にフィードできるということである。
具体的には、提案するtarは、注意位置において2段階の反復的改良操作を行い、対応するテキストインスタンスの正確な境界に適合させて擬似ラベルを生成する。
一方、テキストセグメンテーションヘッドは、上記擬似ラベルによって管理されるセグメンテーションマスクを予測するために、粗い注意位置を取る。
また,入力テキスト画像の拡張版としてセグメンテーション結果を扱い,視覚表現を改善し,認識とセグメンテーションの両方の性能をさらに向上させることにより,マスク提示型コントラスト学習をデザインする。
実験の結果,提案手法はicdar13-fst(18.95$\%$ improvement)およびtextseg(17.80$\%$ improvement)ベンチマークにおいて,弱教師付きインスタンスセグメンテーション法を大幅に上回ることがわかった。
関連論文リスト
- EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。