論文の概要: UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection
- arxiv url: http://arxiv.org/abs/2205.04683v1
- Date: Tue, 10 May 2022 05:34:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:45:33.016603
- Title: UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection
- Title(参考訳): UNITS:シーンテキスト検出のための教師なし中間訓練段階
- Authors: Youhui Guo, Yu Zhou, Xugong Qin, Enze Xie, Weiping Wang
- Abstract要約: 我々は、textbfUNsupervised textbfIntermediate textbfTraining textbfStage (UNITS)を導入したシーンテキスト検出のための新しいトレーニングパラダイムを提案する。
UNITSは実世界のデータへのバッファパスを構築し、事前学習段階と微調整段階の間のギャップを軽減することができる。
教師なしの方法で現実世界のデータから情報を知覚するために、さらに3つのトレーニング戦略が検討されている。
- 参考スコア(独自算出の注目度): 16.925048424113463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent scene text detection methods are almost based on deep learning and
data-driven. Synthetic data is commonly adopted for pre-training due to
expensive annotation cost. However, there are obvious domain discrepancies
between synthetic data and real-world data. It may lead to sub-optimal
performance to directly adopt the model initialized by synthetic data in the
fine-tuning stage. In this paper, we propose a new training paradigm for scene
text detection, which introduces an \textbf{UN}supervised \textbf{I}ntermediate
\textbf{T}raining \textbf{S}tage (UNITS) that builds a buffer path to
real-world data and can alleviate the gap between the pre-training stage and
fine-tuning stage. Three training strategies are further explored to perceive
information from real-world data in an unsupervised way. With UNITS, scene text
detectors are improved without introducing any parameters and computations
during inference. Extensive experimental results show consistent performance
improvements on three public datasets.
- Abstract(参考訳): 近年のシーンテキスト検出手法はディープラーニングとデータ駆動に基づいている。
合成データは、高価なアノテーションコストのために事前学習に一般的に使用される。
しかし、合成データと実世界のデータの間には明らかにドメインの相違がある。
微調整段階で合成データによって初期化されるモデルを直接採用するのは、最適以下のパフォーマンスにつながる可能性がある。
本稿では,実世界のデータに対するバッファパスを構築し,事前学習段階と微調整段階のギャップを緩和する,シーンテキスト検出のための新たなトレーニングパラダイムを提案する。
実世界のデータから情報を教師なしの方法で知覚するために、3つのトレーニング戦略がさらに検討されている。
UNITSでは、推論中にパラメータや計算を導入することなく、シーンテキスト検出器が改善される。
広範な実験結果は、3つのパブリックデータセットで一貫したパフォーマンス改善を示している。
関連論文リスト
- Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed
Real-World Data [4.096453902709292]
シーンテキスト画像合成技術は,背景画像上のテキストインスタンスを自然に構成することを目的としている。
本稿では,テキスト位置提案ネットワーク(TLPNet)とテキスト出現適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。
トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスクのための合成データセットを生成することができる。
論文 参考訳(メタデータ) (2022-09-06T11:15:58Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Weakly Supervised Scene Text Detection using Deep Reinforcement Learning [6.918282834668529]
強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
RLエージェントが受ける報酬は、ニューラルネットワークによって推定される。
次に,提案するシステムを用いて,実世界のデータに対する弱い半教師付きトレーニングを行う。
論文 参考訳(メタデータ) (2022-01-13T10:15:42Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - Synthetic-to-Real Unsupervised Domain Adaptation for Scene Text
Detection in the Wild [11.045516338817132]
シーンテキスト検出のための合成領域適応手法を提案する。
ドメイン適応シーンテキスト検出のためのテキスト自己学習(TST)法と逆テキストインスタンスアライメント(ATA)を導入する。
その結果,提案手法の有効性を最大10%改善した。
論文 参考訳(メタデータ) (2020-09-03T16:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。