論文の概要: TextAdaIN: Fine-Grained AdaIN for Robust Text Recognition
- arxiv url: http://arxiv.org/abs/2105.03906v1
- Date: Sun, 9 May 2021 10:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 07:11:55.617234
- Title: TextAdaIN: Fine-Grained AdaIN for Robust Text Recognition
- Title(参考訳): TextAdaIN:ロバストテキスト認識のためのファイングラインドAdaIN
- Authors: Oren Nuriel, Sharon Fogel, Ron Litman
- Abstract要約: テキスト認識では、ネットワークが過度に依存しているローカルイメージ統計であることを明らかにします。
テキスト認識性能を向上させるために,局所統計の信頼度を規制する手法を提案する。
提案手法はTextAdaINと呼ばれ,特徴マップに局所歪みを生じさせ,ネットワークが局所統計に過度に適合しないようにする。
- 参考スコア(独自算出の注目度): 3.3946853660795884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging the characteristics of convolutional layers, image classifiers are
extremely effective. However, recent works have exposed that in many cases they
immoderately rely on global image statistics that are easy to manipulate while
preserving image semantics. In text recognition, we reveal that it is rather
the local image statistics which the networks overly depend on. Motivated by
this, we suggest an approach to regulate the reliance on local statistics that
improves overall text recognition performance.
Our method, termed TextAdaIN, creates local distortions in the feature map
which prevent the network from overfitting to the local statistics. It does so
by deliberately mismatching fine-grained feature statistics between samples in
a mini-batch. Despite TextAdaIN's simplicity, extensive experiments show its
effectiveness compared to other, more complicated methods. TextAdaIN achieves
state-of-the-art results on standard handwritten text recognition benchmarks.
Additionally, it generalizes to multiple architectures and to the domain of
scene text recognition. Furthermore, we demonstrate that integrating TextAdaIN
improves robustness towards image corruptions.
- Abstract(参考訳): 畳み込み層の特性を利用すると、画像分類器は非常に効果的である。
しかし,近年の研究では,画像のセマンティクスを保ちながら操作が容易なグローバルな画像統計に頼っているケースが多い。
テキスト認識では,ネットワークが過度に依存する局所的な画像統計量であることが明らかとなった。
そこで本研究では,テキスト認識性能を向上させる局所統計への依存度を規制する手法を提案する。
提案手法はTextAdaINと呼ばれ,特徴マップに局所歪みを生成し,ネットワークが局所統計に過度に適合しないようにする。
これは、ミニバッチ内のサンプル間で詳細な特徴統計を意図的にミスマッチすることで実現している。
TextAdaINの単純さにもかかわらず、他のより複雑な方法と比較して、広範な実験が効果を示している。
TextAdaINは、標準的な手書きテキスト認識ベンチマークで最先端の結果を達成する。
さらに、複数のアーキテクチャやシーンテキスト認識の領域に一般化する。
さらに,TextAdaINの統合により画像の破損に対する堅牢性が向上することを示す。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Scene Text Recognition with Image-Text Matching-guided Dictionary [17.073688809336456]
Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
論文 参考訳(メタデータ) (2023-05-08T07:47:49Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - The Surprisingly Straightforward Scene Text Removal Method With Gated
Attention and Region of Interest Generation: A Comprehensive Prominent Model
Analysis [0.76146285961466]
STR(Scene text removal)は、自然のシーン画像からテキストを消去するタスクである。
本稿では,シンプルなかつ極めて効果的なGated Attention(GA)手法とRerea-of-Interest Generation(RoIG)手法を紹介する。
ベンチマークデータを用いた実験結果から,提案手法は既存の最先端手法よりもほぼすべての指標で有意に優れていた。
論文 参考訳(メタデータ) (2022-10-14T03:34:21Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。