論文の概要: Text Recognition in Real Scenarios with a Few Labeled Samples
- arxiv url: http://arxiv.org/abs/2006.12209v1
- Date: Mon, 22 Jun 2020 13:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:22:56.965637
- Title: Text Recognition in Real Scenarios with a Few Labeled Samples
- Title(参考訳): ラベル付きサンプルを用いた実シナリオにおけるテキスト認識
- Authors: Jinghuang Lin, Zhanzhan Cheng, Fan Bai, Yi Niu, Shiliang Pu, Shuigeng
Zhou
- Abstract要約: Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
- 参考スコア(独自算出の注目度): 55.07859517380136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition (STR) is still a hot research topic in computer vision
field due to its various applications. Existing works mainly focus on learning
a general model with a huge number of synthetic text images to recognize
unconstrained scene texts, and have achieved substantial progress. However,
these methods are not quite applicable in many real-world scenarios where 1)
high recognition accuracy is required, while 2) labeled samples are lacked. To
tackle this challenging problem, this paper proposes a few-shot adversarial
sequence domain adaptation (FASDA) approach to build sequence adaptation
between the synthetic source domain (with many synthetic labeled samples) and a
specific target domain (with only some or a few real labeled samples). This is
done by simultaneously learning each character's feature representation with an
attention mechanism and establishing the corresponding character-level latent
subspace with adversarial learning. Our approach can maximize the
character-level confusion between the source domain and the target domain, thus
achieves the sequence-level adaptation with even a small number of labeled
samples in the target domain. Extensive experiments on various datasets show
that our method significantly outperforms the finetuning scheme, and obtains
comparable performance to the state-of-the-art STR methods.
- Abstract(参考訳): シーンテキスト認識(str)は、様々な応用により、コンピュータビジョンの分野でもなおホットな研究テーマである。
既存の作品は主に、制約のないシーンテキストを認識するために、大量の合成テキスト画像を持つ一般的なモデルを学ぶことに集中しており、かなりの進歩を遂げている。
しかし、これらの手法は多くの実世界のシナリオでは適用できない。
1)高い認識精度が必要でありながら
2) ラベル付きサンプルは欠落している。
この課題に対処するため,本論文では,合成ソースドメイン(多数の合成ラベル付きサンプルを含む)と特定のターゲットドメイン(いくつかの実ラベル付きサンプルのみを含む)のシーケンス適応を構築するための,数ショット逆シーケンスドメイン適応 (fasda) アプローチを提案する。
これは、各キャラクタの特徴表現を注意機構で同時に学習し、対応するキャラクタレベルの潜在部分空間を敵学習で確立する。
提案手法は,ソースドメインとターゲットドメインとの文字レベルの混同を最大化することができ,ターゲットドメイン内の少数のラベル付きサンプルでもシーケンスレベルの適応を実現する。
各種データセットに対する大規模な実験により,本手法はファインタニング方式を著しく上回り,最先端のSTR手法に匹敵する性能を示した。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Harnessing the Power of Beta Scoring in Deep Active Learning for
Multi-Label Text Classification [6.662167018900634]
本研究は,期待損失削減フレームワーク内の適切なスコアリングルールのベータファミリを活かした,新たなアクティブな学習戦略を提案する。
これはBeta Scoring Rulesを使って期待されるスコアの増加を計算し、次にサンプルベクトル表現に変換する。
合成データセットと実データセットの総合的な評価により,複数ラベルのテキスト分類において,確立された取得技術を上回る性能が得られた。
論文 参考訳(メタデータ) (2024-01-15T00:06:24Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards
Enhancing Text Spotting Performance [15.513912470752041]
様々な領域への適応能力は、実環境にデプロイする際のシーンテキストスポッティングモデルに不可欠である。
本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわちマルチドメインソースデータを用いたモデルトレーニングについて検討する。
その結果,複数の領域にまたがるテキストスポッティングベンチマークにおいて,中間表現が有意な性能を発揮する可能性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-02T06:08:01Z) - Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes [11.478236584340255]
雑音の多い水中のシーンに対して,UWT (Under-Water Text) と呼ばれるテキストスポッティング検証ベンチマークを提案する。
また,DA-TextSpotterと呼ばれる,高効率な超解像ベースのエンドツーエンド変換器ベースラインを設計する。
データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。
論文 参考訳(メタデータ) (2023-10-01T03:27:41Z) - Improving Anomaly Segmentation with Multi-Granularity Cross-Domain
Alignment [17.086123737443714]
異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。
既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。
シーンと個々のサンプルレベルの両方で、ドメイン間の機能を調和させるのに適した、マルチグラニュラリティ・クロスドメインアライメントフレームワークを導入します。
論文 参考訳(メタデータ) (2023-08-16T22:54:49Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z) - Cross-domain Object Detection through Coarse-to-Fine Feature Adaptation [62.29076080124199]
本稿では,クロスドメインオブジェクト検出のための特徴適応手法を提案する。
粗粒度では、アテンション機構を採用して前景領域を抽出し、その辺縁分布に応じて整列する。
粒度の細かい段階では、同じカテゴリのグローバルプロトタイプと異なるドメインとの距離を最小化することにより、前景の条件分布アライメントを行う。
論文 参考訳(メタデータ) (2020-03-23T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。