論文の概要: Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and
Margin Loss
- arxiv url: http://arxiv.org/abs/2403.07518v1
- Date: Tue, 12 Mar 2024 10:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:52:03.188408
- Title: Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and
Margin Loss
- Title(参考訳): Pseudo- Image Labeling と Margin Loss によるオープンボキャブラリシーンのテキスト認識
- Authors: Xuhua Ren, Hengcan Shi, Jin Li
- Abstract要約: オープン語彙テキスト認識フレームワークPseudo-OCRを提案する。
ICDAR2022チャレンジでは,8つのデータセットで最先端のパフォーマンスを達成し,第1位を達成している。
- 参考スコア(独自算出の注目度): 9.062289469387478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition is an important and challenging task in computer
vision. However, most prior works focus on recognizing pre-defined words, while
there are various out-of-vocabulary (OOV) words in real-world applications.
In this paper, we propose a novel open-vocabulary text recognition framework,
Pseudo-OCR, to recognize OOV words. The key challenge in this task is the lack
of OOV training data. To solve this problem, we first propose a pseudo label
generation module that leverages character detection and image inpainting to
produce substantial pseudo OOV training data from real-world images. Unlike
previous synthetic data, our pseudo OOV data contains real characters and
backgrounds to simulate real-world applications. Secondly, to reduce noises in
pseudo data, we present a semantic checking mechanism to filter semantically
meaningful data. Thirdly, we introduce a quality-aware margin loss to boost the
training with pseudo data. Our loss includes a margin-based part to enhance the
classification ability, and a quality-aware part to penalize low-quality
samples in both real and pseudo data.
Extensive experiments demonstrate that our approach outperforms the
state-of-the-art on eight datasets and achieves the first rank in the ICDAR2022
challenge.
- Abstract(参考訳): シーンテキスト認識はコンピュータビジョンにおいて重要かつ困難な課題である。
しかし、多くの先行研究は定義済みの単語の認識に重点を置いており、実際の応用には様々な外語彙(OOV)がある。
本稿では,oov単語を認識するための新しいオープンボキャブラリーテキスト認識フレームワークであるpseudo-ocrを提案する。
このタスクにおける重要な課題は、OOVトレーニングデータの欠如である。
そこで本研究では,文字検出と画像インパインティングを利用した擬似ラベル生成モジュールを提案し,実世界の画像から実質的な擬似OOVトレーニングデータを生成する。
従来の合成データとは異なり、擬似OOVデータには実世界の応用をシミュレートするための実像と背景が含まれている。
次に,疑似データのノイズを低減するために,意味的に有意味なデータをフィルタする意味チェック機構を提案する。
第3に,疑似データによるトレーニングを促進するために,品質を意識したマージン損失を導入する。
私たちの損失には、分類能力を高めるマージンベースの部分と、実データと疑似データの両方で低品質のサンプルをペナライズする品質認識部分が含まれています。
大規模な実験により、我々の手法は8つのデータセットで最先端の手法より優れており、ICDAR2022チャレンジで第1位を獲得します。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training [6.34265125858783]
本稿では,事前学習の少ない視覚言語事前学習のためのノイズロバストフレームワークを提案する。
具体的には、凍結した画像エンコーダと大きな言語モデルとのモダリティギャップを変換器でブリッジする。
ノイズ適応学習と概念強化学習の2つの革新的な学習戦略を導入する。
論文 参考訳(メタデータ) (2024-09-15T01:54:17Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。
小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。
ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-06-26T23:29:16Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents [3.9688530261646653]
歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。
マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。
微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
論文 参考訳(メタデータ) (2023-03-06T13:39:41Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。