論文の概要: UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection
- arxiv url: http://arxiv.org/abs/2205.04683v1
- Date: Tue, 10 May 2022 05:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:45:33.016603
- Title: UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection
- Title(参考訳): UNITS:シーンテキスト検出のための教師なし中間訓練段階
- Authors: Youhui Guo, Yu Zhou, Xugong Qin, Enze Xie, Weiping Wang
- Abstract要約: 我々は、textbfUNsupervised textbfIntermediate textbfTraining textbfStage (UNITS)を導入したシーンテキスト検出のための新しいトレーニングパラダイムを提案する。
UNITSは実世界のデータへのバッファパスを構築し、事前学習段階と微調整段階の間のギャップを軽減することができる。
教師なしの方法で現実世界のデータから情報を知覚するために、さらに3つのトレーニング戦略が検討されている。
- 参考スコア(独自算出の注目度): 16.925048424113463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent scene text detection methods are almost based on deep learning and
data-driven. Synthetic data is commonly adopted for pre-training due to
expensive annotation cost. However, there are obvious domain discrepancies
between synthetic data and real-world data. It may lead to sub-optimal
performance to directly adopt the model initialized by synthetic data in the
fine-tuning stage. In this paper, we propose a new training paradigm for scene
text detection, which introduces an \textbf{UN}supervised \textbf{I}ntermediate
\textbf{T}raining \textbf{S}tage (UNITS) that builds a buffer path to
real-world data and can alleviate the gap between the pre-training stage and
fine-tuning stage. Three training strategies are further explored to perceive
information from real-world data in an unsupervised way. With UNITS, scene text
detectors are improved without introducing any parameters and computations
during inference. Extensive experimental results show consistent performance
improvements on three public datasets.
- Abstract(参考訳): 近年のシーンテキスト検出手法はディープラーニングとデータ駆動に基づいている。
合成データは、高価なアノテーションコストのために事前学習に一般的に使用される。
しかし、合成データと実世界のデータの間には明らかにドメインの相違がある。
微調整段階で合成データによって初期化されるモデルを直接採用するのは、最適以下のパフォーマンスにつながる可能性がある。
本稿では,実世界のデータに対するバッファパスを構築し,事前学習段階と微調整段階のギャップを緩和する,シーンテキスト検出のための新たなトレーニングパラダイムを提案する。
実世界のデータから情報を教師なしの方法で知覚するために、3つのトレーニング戦略がさらに検討されている。
UNITSでは、推論中にパラメータや計算を導入することなく、シーンテキスト検出器が改善される。
広範な実験結果は、3つのパブリックデータセットで一貫したパフォーマンス改善を示している。
関連論文リスト
- Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Towards 3D Scene Understanding by Referring Synthetic Models [65.74211112607315]
メソッドは通常、実際のシーンスキャンにおける過剰なアノテーションを緩和する。
合成モデルは、合成特徴の実際のシーンカテゴリを、統一された特徴空間にどのように依存するかを考察する。
実験の結果,ScanNet S3DISデータセットの平均mAPは46.08%,学習データセットは55.49%であった。
論文 参考訳(メタデータ) (2022-03-20T13:06:15Z) - Evaluating BERT-based Pre-training Language Models for Detecting
Misinformation [2.1915057426589746]
オンラインに投稿された全ての情報に対する監督が欠如しているため、オンライン情報の質を制御することは困難である。
誤報の拡散による悪影響を抑えるために, 自動的噂検出技術が必要である。
本研究では、BERTに基づく事前学習言語モデルを用いて、テキストデータをベクトルにエンコードし、ニューラルネットワークモデルを用いてこれらのベクトルを分類し、誤情報を検出する。
論文 参考訳(メタデータ) (2022-03-15T08:54:36Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Weakly Supervised Scene Text Detection using Deep Reinforcement Learning [6.918282834668529]
強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
RLエージェントが受ける報酬は、ニューラルネットワークによって推定される。
次に,提案するシステムを用いて,実世界のデータに対する弱い半教師付きトレーニングを行う。
論文 参考訳(メタデータ) (2022-01-13T10:15:42Z) - Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial
Attack Framework [13.952338112906391]
勾配に基づく敵攻撃法はコンピュータビジョンの分野でよく研究されている。
テキストの離散的な性質のため、自然言語処理に直接適用するのは現実的ではない。
そこで本研究では,既存の勾配法を適応してテキスト逆数サンプルを作成するための一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-28T17:31:51Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - DUET: Detection Utilizing Enhancement for Text in Scanned or Captured
Documents [1.4866448722906016]
提案手法は,テキスト検出だけでなく,ノイズ低減やテキスト領域の強調を行うように設計されている。
テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させる。
提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。
論文 参考訳(メタデータ) (2021-06-10T07:08:31Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。