論文の概要: SMILE: Sequence-to-Sequence Domain Adaption with Minimizing Latent
Entropy for Text Image Recognition
- arxiv url: http://arxiv.org/abs/2202.11949v1
- Date: Thu, 24 Feb 2022 08:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-25 16:54:31.781693
- Title: SMILE: Sequence-to-Sequence Domain Adaption with Minimizing Latent
Entropy for Text Image Recognition
- Title(参考訳): smile: テキスト画像認識のための潜在エントロピー最小化によるシーケンスからシーケンスへの適応
- Authors: Yen-Cheng Chang, Yi-Chang Chen, Yu-Chuan Chang, Yi-Ren Yeh
- Abstract要約: 本稿では,クラスバランスの自己評価学習を用いたシーケンス・ツー・シーケンス・アテンションに基づくモデルにおける潜在エントロピーを最小化する枠組みを提案する。
提案手法は,ほとんどのUDAテキスト認識ベンチマークにおいて,既存の手法よりも優れた認識結果が得られることを示す。
- 参考スコア(独自算出の注目度): 0.3211619859724084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training recognition models with synthetic images have achieved remarkable
results in text recognition. However, recognizing text from real-world images
still faces challenges due to the domain shift between synthetic and real-world
text images. One of the strategies to eliminate the domain difference without
manual annotation is unsupervised domain adaptation (UDA). Due to the
characteristic of sequential labeling tasks, most popular UDA methods cannot be
directly applied to text recognition. To tackle this problem, we proposed a UDA
method with minimizing latent entropy on sequence-to-sequence attention-based
models with classbalanced self-paced learning. Our experiments show that our
proposed framework achieves better recognition results than the existing
methods on most UDA text recognition benchmarks. All codes are publicly
available.
- Abstract(参考訳): 合成画像を用いた認識モデルの訓練は、テキスト認識において顕著な結果をもたらしている。
しかし,合成画像と実世界画像の領域シフトにより,実世界画像からのテキスト認識が課題となっている。
手動アノテーションなしでドメインの違いを取り除く戦略の1つは、unsupervised domain adaptation (uda)である。
シーケンシャルなラベリングタスクの特徴から、一般的なudaメソッドはテキスト認識に直接適用することはできない。
そこで本研究では,自己ペース学習のクラスバランスを考慮した逐次注意モデルにおける潜在エントロピーを最小化するuda法を提案する。
提案手法は,ほとんどのUDAテキスト認識ベンチマークにおいて,既存の手法よりも優れた認識結果が得られることを示す。
すべてのコードは公開されている。
関連論文リスト
- UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation [104.40114562948428]
教師なしドメイン適応(UDA)では、ソースデータ(例えば、合成)に基づいて訓練されたモデルは、ターゲットアノテーションにアクセスすることなく、ターゲットデータ(例えば、現実世界)に適応する。
本研究では,対象領域の空間的コンテキスト関係を学習し,UDAを向上するMasked Image Consistency (MIC)モジュールを提案する。
MICは、合成からリアルタイム、日夜、クリア・ツー・リバース・ウェザーUDAの様々な認識タスクにおいて、最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-02T17:29:32Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - TextAdaIN: Fine-Grained AdaIN for Robust Text Recognition [3.3946853660795884]
テキスト認識では、ネットワークが過度に依存しているローカルイメージ統計であることを明らかにします。
テキスト認識性能を向上させるために,局所統計の信頼度を規制する手法を提案する。
提案手法はTextAdaINと呼ばれ,特徴マップに局所歪みを生じさせ,ネットワークが局所統計に過度に適合しないようにする。
論文 参考訳(メタデータ) (2021-05-09T10:47:48Z) - Sequence-to-Sequence Contrastive Learning for Text Recognition [29.576864819760498]
本稿では,視覚表現のシーケンス間コントラスト学習(seqclr)のためのフレームワークを提案する。
手書きテキストとシーンテキストの実験では,学習した表現に基づいてテキストデコーダを訓練すると,非逐次コントラスト法よりも優れることを示す。
論文 参考訳(メタデータ) (2020-12-20T09:07:41Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。