論文の概要: SemiETS: Integrating Spatial and Content Consistencies for Semi-Supervised End-to-end Text Spotting
- arxiv url: http://arxiv.org/abs/2504.09966v1
- Date: Mon, 14 Apr 2025 08:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:42.208301
- Title: SemiETS: Integrating Spatial and Content Consistencies for Semi-Supervised End-to-end Text Spotting
- Title(参考訳): SemiETS: 半教師付きエンドツーエンドテキストスポッティングのための空間的・コンテンツ的整合性の統合
- Authors: Dongliang Luo, Hanshen Zhu, Ziyang Zhang, Dingkang Liang, Xudong Xie, Yuliang Liu, Xiang Bai,
- Abstract要約: エンドツーエンドテキストスポッティング,すなわちSemiETSのための新しいセミ教師付きフレームワークを提案する。
具体的には、各タスクの信頼性の高い階層的な擬似ラベルを徐々に生成し、ノイズの多いラベルを減らす。
双方向の流れから位置や転写の重要な情報を抽出し、一貫性を向上させる。
- 参考スコア(独自算出の注目度): 59.14029549151904
- License:
- Abstract: Most previous scene text spotting methods rely on high-quality manual annotations to achieve promising performance. To reduce their expensive costs, we study semi-supervised text spotting (SSTS) to exploit useful information from unlabeled images. However, directly applying existing semi-supervised methods of general scenes to SSTS will face new challenges: 1) inconsistent pseudo labels between detection and recognition tasks, and 2) sub-optimal supervisions caused by inconsistency between teacher/student. Thus, we propose a new Semi-supervised framework for End-to-end Text Spotting, namely SemiETS that leverages the complementarity of text detection and recognition. Specifically, it gradually generates reliable hierarchical pseudo labels for each task, thereby reducing noisy labels. Meanwhile, it extracts important information in locations and transcriptions from bidirectional flows to improve consistency. Extensive experiments on three datasets under various settings demonstrate the effectiveness of SemiETS on arbitrary-shaped text. For example, it outperforms previous state-of-the-art SSL methods by a large margin on end-to-end spotting (+8.7%, +5.6%, and +2.6% H-mean under 0.5%, 1%, and 2% labeled data settings on Total-Text, respectively). More importantly, it still improves upon a strongly supervised text spotter trained with plenty of labeled data by 2.0%. Compelling domain adaptation ability shows practical potential. Moreover, our method demonstrates consistent improvement on different text spotters.
- Abstract(参考訳): 以前のシーンテキストスポッティング手法のほとんどは、期待できるパフォーマンスを達成するために高品質なマニュアルアノテーションに依存していた。
コスト削減のために, 半教師付きテキストスポッティング (SSTS) を用いて, ラベルなし画像から有用な情報を活用する。
しかし、既存の半教師付き一般的なシーンの手法をSSTSに直接適用することは、新しい課題に直面します。
1)検出タスクと認識タスクとの不整合擬似ラベル
2【教師・学生の不整合による準最適監督】
そこで本研究では,テキスト検出と認識の相補性を生かした,エンドツーエンドテキストスポッティングのためのSemi-supervisedフレームワークを提案する。
具体的には、各タスクの信頼性の高い階層的な擬似ラベルを徐々に生成し、ノイズの多いラベルを減らす。
一方、双方向フローから位置や転写の重要な情報を抽出し、一貫性を向上させる。
様々な条件下での3つのデータセットに対する大規模な実験は、任意の形のテキスト上でSemiETSの有効性を示す。
例えば、従来の最先端SSLメソッドよりも、エンドツーエンドスポッティング(+8.7%、+5.6%、+2.6%のH平均をそれぞれ0.5%、1%、2%のラベル付きデータ設定で上回っている。
さらに重要なのは、多くのラベル付きデータでトレーニングされた強力な教師付きテキストスポッターを2.0%改善することです。
ドメイン適応能力の計算は実用的な可能性を示している。
さらに,本手法はテキストスポッターの整合性向上を示す。
関連論文リスト
- Exploring Scene Affinity for Semi-Supervised LiDAR Semantic Segmentation [28.480775624544478]
本稿では,運転シーンにおける半教師付きLiDARセマンティックセマンティックセグメンテーションのためのシーン親和性,すなわちシーン内一貫性とシーン間相関について検討する。
AISceneは教師教育を採用し、教師ネットワークを用いて、未ラベルのデータから擬似ラベル付きシーンを生成し、学生ネットワークの学習を監督する。
実験の結果、AISceneは4つの設定で2つの人気のあるベンチマークで過去の手法よりも優れており、最も困難な1%のラベル付きデータにおいて1.9%と2.1%の顕著な改善を達成している。
論文 参考訳(メタデータ) (2024-08-21T02:03:03Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer [21.479222207347238]
テキストスポッティングのための変換器ベースのアプローチであるTextTranSpotter(TTS)を紹介する。
TTSは、完全に管理された設定と弱い設定の両方で訓練される。
TextTranSpotterは、完全に教師された方法でトレーニングされ、複数のベンチマークで最先端の結果を表示する。
論文 参考訳(メタデータ) (2022-02-11T08:50:09Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - Weakly-Supervised Arbitrary-Shaped Text Detection with
Expectation-Maximization Algorithm [35.0126313032923]
弱教師付き任意字型テキスト検出法について, 各種弱監督形式を組み合わせるために検討した。
本稿では,予測最大化(EM)に基づく弱教師付き学習フレームワークを提案する。
提案手法は,3つのベンチマーク上での最先端手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2020-12-01T11:45:39Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。