論文の概要: On Vocabulary Reliance in Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2005.03959v1
- Date: Fri, 8 May 2020 11:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:39:31.902772
- Title: On Vocabulary Reliance in Scene Text Recognition
- Title(参考訳): テキスト認識における語彙依存について
- Authors: Zhaoyi Wan, Jielei Zhang, Liang Zhang, Jiebo Luo, Cong Yao
- Abstract要約: ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
- 参考スコア(独自算出の注目度): 79.21737876442253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pursuit of high performance on public benchmarks has been the driving
force for research in scene text recognition, and notable progress has been
achieved. However, a close investigation reveals a startling fact that the
state-of-the-art methods perform well on images with words within vocabulary
but generalize poorly to images with words outside vocabulary. We call this
phenomenon "vocabulary reliance". In this paper, we establish an analytical
framework to conduct an in-depth study on the problem of vocabulary reliance in
scene text recognition. Key findings include: (1) Vocabulary reliance is
ubiquitous, i.e., all existing algorithms more or less exhibit such
characteristic; (2) Attention-based decoders prove weak in generalizing to
words outside vocabulary and segmentation-based decoders perform well in
utilizing visual features; (3) Context modeling is highly coupled with the
prediction layers. These findings provide new insights and can benefit future
research in scene text recognition. Furthermore, we propose a simple yet
effective mutual learning strategy to allow models of two families
(attention-based and segmentation-based) to learn collaboratively. This remedy
alleviates the problem of vocabulary reliance and improves the overall scene
text recognition performance.
- Abstract(参考訳): パブリックベンチマークでのハイパフォーマンスの追求は、シーンテキスト認識の研究の原動力となり、注目すべき進歩を遂げている。
しかし,本手法が語彙内の単語を含む画像に対してうまく機能するのに対し,語彙以外の画像に対してはあまり一般化しないという驚くべき事実が明らかにされている。
この現象を「ボキャブラリー・リライアンス」と呼ぶ。
本稿では,シーンテキスト認識における語彙依存の問題に関する詳細な研究を行うための分析的枠組みを確立する。
主な発見は,(1)語彙依存はユビキタス,すなわち,既存のアルゴリズムが多かれ少なかれそのような特徴を示すこと,(2)意図に基づくデコーダは,語彙以外の単語への一般化が弱いこと,およびセグメンテーションに基づくデコーダは視覚的特徴の活用に優れていること,(3)コンテキストモデリングは予測層と高度に結合していること,である。
これらの発見は新しい洞察を与え、シーンテキスト認識における将来の研究に役立つ。
さらに,2家族(アテンションベースとセグメンテーションベース)のモデルが協調的に学習できるように,単純かつ効果的な相互学習戦略を提案する。
これにより語彙依存の問題が緩和され、シーン全体のテキスト認識性能が向上する。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Unifying Latent and Lexicon Representations for Effective Video-Text
Retrieval [87.69394953339238]
ビデオテキスト検索における微細な意味を捉えるために語彙表現を学習するUNIFYフレームワークを提案する。
MSR-VTT と DiDeMo をそれぞれ4.8%,Recall@1 を8.2%改善した。
論文 参考訳(メタデータ) (2024-02-26T17:36:50Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - CLIPTER: Looking at the Bigger Picture in Scene Text Recognition [10.561377899703238]
私たちは、CLIPのような現代視覚言語モデルの能力を利用して、作物ベースの認識者にシーンレベルの情報を提供する。
我々は,視覚言語モデルから得られた画像全体の表現を,クロスアテンションゲート機構を介して認識語レベルの特徴と融合させることにより,これを実現する。
論文 参考訳(メタデータ) (2023-01-18T12:16:19Z) - Language with Vision: a Study on Grounded Word and Sentence Embeddings [6.231247903840833]
視覚における接地言語は、認知的に妥当な単語と文表現の構築を目指す研究の活発な分野である。
本研究では,事前学習した単語埋め込みのための基礎計算モデルを提案する。
本モデルは,テキスト埋め込みを視覚情報と整合させることにより,言語と視覚の相互作用を効果的にバランスさせる。
論文 参考訳(メタデータ) (2022-06-17T15:04:05Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Deep learning models for representing out-of-vocabulary words [1.4502611532302039]
本稿では,語彙外(OOV)単語を表現するためのディープラーニングモデルの性能評価を行う。
OOV単語を扱うための最善のテクニックはタスクごとに異なるが、OV単語のコンテキストと形態構造に基づいて埋め込みを推論する深層学習手法であるComickは、有望な結果を得た。
論文 参考訳(メタデータ) (2020-07-14T19:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。