論文の概要: Self-Training for Domain Adaptive Scene Text Detection
- arxiv url: http://arxiv.org/abs/2005.11487v1
- Date: Sat, 23 May 2020 07:36:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 03:35:20.059915
- Title: Self-Training for Domain Adaptive Scene Text Detection
- Title(参考訳): ドメイン適応シーンテキスト検出のための自己学習
- Authors: Yudi Chen, Wei Wang, Yu Zhou, Fei Yang, Dongbao Yang, Weiping Wang
- Abstract要約: 本稿では,注釈のないビデオや画像から擬似ラベルでハードサンプルを自動的にマイニングする自己学習フレームワークを提案する。
ICDAR2015, MSRA-TD500, ICDAR 2017 MLT などの標準ベンチマーク実験により, 自己学習法の有効性が示された。
自己学習と実データによる微調整を施したシンプルなMask R-CNNは、最先端の手法で同等あるいはそれ以上の結果が得られる。
- 参考スコア(独自算出の注目度): 16.42511044274265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Though deep learning based scene text detection has achieved great progress,
well-trained detectors suffer from severe performance degradation for different
domains. In general, a tremendous amount of data is indispensable to train the
detector in the target domain. However, data collection and annotation are
expensive and time-consuming. To address this problem, we propose a
self-training framework to automatically mine hard examples with pseudo-labels
from unannotated videos or images. To reduce the noise of hard examples, a
novel text mining module is implemented based on the fusion of detection and
tracking results. Then, an image-to-video generation method is designed for the
tasks that videos are unavailable and only images can be used. Experimental
results on standard benchmarks, including ICDAR2015, MSRA-TD500, ICDAR2017 MLT,
demonstrate the effectiveness of our self-training method. The simple Mask
R-CNN adapted with self-training and fine-tuned on real data can achieve
comparable or even superior results with the state-of-the-art methods.
- Abstract(参考訳): ディープラーニングに基づくシーンのテキスト検出は大きな進歩を遂げているが、十分に訓練された検出器は、異なるドメインのパフォーマンス低下に苦しむ。
一般に、ターゲット領域で検出器を訓練するには膨大な量のデータが不可欠である。
しかし、データ収集とアノテーションは高価で時間がかかる。
この問題に対処するために,アノテーションのないビデオや画像から擬似ラベルでハードサンプルを自動的にマイニングする自己学習フレームワークを提案する。
ハードサンプルのノイズを低減するため、検出結果と追跡結果の融合に基づいて、新しいテキストマイニングモジュールを実装した。
次に、ビデオが使用不可能で、画像のみを使用できるタスクのために、画像対ビデオ生成方法を設計する。
ICDAR2015, MSRA-TD500, ICDAR2017 MLTなどの標準ベンチマーク実験の結果, 自己学習法の有効性が示された。
自己学習と実データによる微調整を施したシンプルなMask R-CNNは、最先端の手法で同等あるいはそれ以上の結果が得られる。
関連論文リスト
- Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - SISL:Self-Supervised Image Signature Learning for Splicing Detection and
Localization [11.437760125881049]
画像の周波数変換からスプライシング検出/局所化モデルを訓練するための自己教師型アプローチを提案する。
提案したモデルでは,ラベルやメタデータを使わずに,標準データセット上で同様のあるいはより良いパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-15T12:26:29Z) - Weakly Supervised Scene Text Detection using Deep Reinforcement Learning [6.918282834668529]
強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
RLエージェントが受ける報酬は、ニューラルネットワークによって推定される。
次に,提案するシステムを用いて,実世界のデータに対する弱い半教師付きトレーニングを行う。
論文 参考訳(メタデータ) (2022-01-13T10:15:42Z) - Self-Supervision & Meta-Learning for One-Shot Unsupervised Cross-Domain
Detection [0.0]
本研究では, 対象サンプルを1つだけ使用して, ドメイン間の教師なし適応を実現できるオブジェクト検出アルゴリズムを提案する。
メタラーニングを利用して、単サンプルのクロスドメイン学習エピソードをシミュレートし、テスト条件の整合性を向上する。
論文 参考訳(メタデータ) (2021-06-07T10:33:04Z) - Enhanced Few-shot Learning for Intrusion Detection in Railway Video
Surveillance [16.220077781635748]
拡張モデル非依存メタラーナーは、オリジナルビデオフレームと、ビデオから抽出されたトラック領域のセグメンテッドマスクの両方を用いて訓練される。
解析結果から,拡張メタラーナーは,新たに収集したビデオフレームのサンプルをわずかに残さず,見知らぬシーンに適応できることが示唆された。
論文 参考訳(メタデータ) (2020-11-09T08:59:15Z) - Deep Traffic Sign Detection and Recognition Without Target Domain Real
Images [52.079665469286496]
本稿では,ターゲットドメインからの実際の画像を必要としない新しいデータベース生成手法と,(ii)交通標識のテンプレートを提案する。
この方法は、実際のデータでトレーニングを克服することではなく、実際のデータが利用できない場合に互換性のある代替手段になることを目的としている。
大規模なデータセットでは、完全に合成されたデータセットによるトレーニングは、実際のデータセットとトレーニングのパフォーマンスにほぼ一致する。
論文 参考訳(メタデータ) (2020-07-30T21:06:47Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。