論文の概要: Weakly Supervised Scene Text Detection using Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2201.04866v1
- Date: Thu, 13 Jan 2022 10:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:09:08.303456
- Title: Weakly Supervised Scene Text Detection using Deep Reinforcement Learning
- Title(参考訳): 深層強化学習を用いた弱教師付きシーンテキスト検出
- Authors: Emanuel Metzenthin, Christian Bartz, Christoph Meinel
- Abstract要約: 強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
RLエージェントが受ける報酬は、ニューラルネットワークによって推定される。
次に,提案するシステムを用いて,実世界のデータに対する弱い半教師付きトレーニングを行う。
- 参考スコア(独自算出の注目度): 6.918282834668529
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The challenging field of scene text detection requires complex data
annotation, which is time-consuming and expensive. Techniques, such as weak
supervision, can reduce the amount of data needed. In this paper we propose a
weak supervision method for scene text detection, which makes use of
reinforcement learning (RL). The reward received by the RL agent is estimated
by a neural network, instead of being inferred from ground-truth labels. First,
we enhance an existing supervised RL approach to text detection with several
training optimizations, allowing us to close the performance gap to
regression-based algorithms. We then use our proposed system in a weakly- and
semi-supervised training on real-world data. Our results show that training in
a weakly supervised setting is feasible. However, we find that using our model
in a semi-supervised setting , e.g. when combining labeled synthetic data with
unannotated real-world data, produces the best results.
- Abstract(参考訳): シーンテキスト検出の困難な分野は、複雑なデータアノテーションを必要とする。
弱い監督のような技術は、必要なデータ量を減らすことができる。
本稿では,強化学習(RL)を利用したシーンテキスト検出の弱い監視手法を提案する。
rlエージェントが受け取る報酬は、接地ラベルから推測されるのではなく、ニューラルネットワークによって推定される。
まず,テキスト検出に対する既存の教師付きrlアプローチをいくつかのトレーニング最適化により強化し,回帰型アルゴリズムの性能ギャップを解消した。
次に,提案システムを用いて実世界のデータに対する弱教師付き学習を行う。
その結果,教師の少ない環境でのトレーニングは可能であった。
しかし, ラベル付き合成データと無記名実世界データを組み合わせた場合, 半教師付き設定でモデルを用いることで, 最良の結果が得られることがわかった。
関連論文リスト
- Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Synthetic Experience Replay [48.601879260071655]
エージェントの収集した経験を柔軟にアップサンプリングするための拡散に基づくアプローチであるSynthetic Experience Replay(SynthER)を提案する。
SynthERはオフラインおよびオンライン設定におけるRLエージェントのトレーニングに有効な方法であることを示す。
我々は、限られたデータからリプレイベースのRLアルゴリズムの深層学習の可能性を実現するために、合成トレーニングデータが扉を開くことができると信じている。
論文 参考訳(メタデータ) (2023-03-12T09:10:45Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Semi-WTC: A Practical Semi-supervised Framework for Attack
Categorization through Weight-Task Consistency [19.97236038722335]
監視学習は、大量の高品質のデータとラベルを必要とする攻撃検出に広く利用されている。
本稿では,エンコーダと2分岐構造からなる半教師付ききめ細粒度攻撃分類フレームワークを提案する。
本モデルでは, 分類精度が5%向上し, 訓練時間の90%が短縮され, 最先端の半教師付き攻撃検出法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-19T16:30:31Z) - UNITS: Unsupervised Intermediate Training Stage for Scene Text Detection [16.925048424113463]
我々は、textbfUNsupervised textbfIntermediate textbfTraining textbfStage (UNITS)を導入したシーンテキスト検出のための新しいトレーニングパラダイムを提案する。
UNITSは実世界のデータへのバッファパスを構築し、事前学習段階と微調整段階の間のギャップを軽減することができる。
教師なしの方法で現実世界のデータから情報を知覚するために、さらに3つのトレーニング戦略が検討されている。
論文 参考訳(メタデータ) (2022-05-10T05:34:58Z) - Weakly-Supervised Arbitrary-Shaped Text Detection with
Expectation-Maximization Algorithm [35.0126313032923]
弱教師付き任意字型テキスト検出法について, 各種弱監督形式を組み合わせるために検討した。
本稿では,予測最大化(EM)に基づく弱教師付き学習フレームワークを提案する。
提案手法は,3つのベンチマーク上での最先端手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2020-12-01T11:45:39Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Self-Training for Domain Adaptive Scene Text Detection [16.42511044274265]
本稿では,注釈のないビデオや画像から擬似ラベルでハードサンプルを自動的にマイニングする自己学習フレームワークを提案する。
ICDAR2015, MSRA-TD500, ICDAR 2017 MLT などの標準ベンチマーク実験により, 自己学習法の有効性が示された。
自己学習と実データによる微調整を施したシンプルなMask R-CNNは、最先端の手法で同等あるいはそれ以上の結果が得られる。
論文 参考訳(メタデータ) (2020-05-23T07:36:23Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。