論文の概要: Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and
Margin Loss
- arxiv url: http://arxiv.org/abs/2403.07518v1
- Date: Tue, 12 Mar 2024 10:54:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:52:03.188408
- Title: Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and
Margin Loss
- Title(参考訳): Pseudo- Image Labeling と Margin Loss によるオープンボキャブラリシーンのテキスト認識
- Authors: Xuhua Ren, Hengcan Shi, Jin Li
- Abstract要約: オープン語彙テキスト認識フレームワークPseudo-OCRを提案する。
ICDAR2022チャレンジでは,8つのデータセットで最先端のパフォーマンスを達成し,第1位を達成している。
- 参考スコア(独自算出の注目度): 9.062289469387478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition is an important and challenging task in computer
vision. However, most prior works focus on recognizing pre-defined words, while
there are various out-of-vocabulary (OOV) words in real-world applications.
In this paper, we propose a novel open-vocabulary text recognition framework,
Pseudo-OCR, to recognize OOV words. The key challenge in this task is the lack
of OOV training data. To solve this problem, we first propose a pseudo label
generation module that leverages character detection and image inpainting to
produce substantial pseudo OOV training data from real-world images. Unlike
previous synthetic data, our pseudo OOV data contains real characters and
backgrounds to simulate real-world applications. Secondly, to reduce noises in
pseudo data, we present a semantic checking mechanism to filter semantically
meaningful data. Thirdly, we introduce a quality-aware margin loss to boost the
training with pseudo data. Our loss includes a margin-based part to enhance the
classification ability, and a quality-aware part to penalize low-quality
samples in both real and pseudo data.
Extensive experiments demonstrate that our approach outperforms the
state-of-the-art on eight datasets and achieves the first rank in the ICDAR2022
challenge.
- Abstract(参考訳): シーンテキスト認識はコンピュータビジョンにおいて重要かつ困難な課題である。
しかし、多くの先行研究は定義済みの単語の認識に重点を置いており、実際の応用には様々な外語彙(OOV)がある。
本稿では,oov単語を認識するための新しいオープンボキャブラリーテキスト認識フレームワークであるpseudo-ocrを提案する。
このタスクにおける重要な課題は、OOVトレーニングデータの欠如である。
そこで本研究では,文字検出と画像インパインティングを利用した擬似ラベル生成モジュールを提案し,実世界の画像から実質的な擬似OOVトレーニングデータを生成する。
従来の合成データとは異なり、擬似OOVデータには実世界の応用をシミュレートするための実像と背景が含まれている。
次に,疑似データのノイズを低減するために,意味的に有意味なデータをフィルタする意味チェック機構を提案する。
第3に,疑似データによるトレーニングを促進するために,品質を意識したマージン損失を導入する。
私たちの損失には、分類能力を高めるマージンベースの部分と、実データと疑似データの両方で低品質のサンプルをペナライズする品質認識部分が含まれています。
大規模な実験により、我々の手法は8つのデータセットで最先端の手法より優れており、ICDAR2022チャレンジで第1位を獲得します。
関連論文リスト
- Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。
小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。
ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-06-26T23:29:16Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - Semantic-Preserving Augmentation for Robust Image-Text Retrieval [27.2916415148638]
RVSEは、画像のセマンティック保存強化(SPAugI)とテキスト(SPAugT)という、新しい画像ベースおよびテキストベースの拡張技術からなる。
SPAugIとSPAugTは、その意味情報が保存されるように元のデータを変更するため、特徴抽出器を強制して意味を意識した埋め込みベクトルを生成する。
ベンチマークデータセットを用いた広範囲な実験から、RVSEは画像テキスト検索性能において従来の検索手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-10T03:50:44Z) - ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents [3.9688530261646653]
歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。
マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。
微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
論文 参考訳(メタデータ) (2023-03-06T13:39:41Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。
クラス名や模範画像が与えられた任意のオブジェクトを検出できる。
芸術の現在の状態よりも、ささいな改善を達成している。
論文 参考訳(メタデータ) (2022-03-22T16:54:52Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - DUET: Detection Utilizing Enhancement for Text in Scanned or Captured
Documents [1.4866448722906016]
提案手法は,テキスト検出だけでなく,ノイズ低減やテキスト領域の強調を行うように設計されている。
テキスト検出と強調のためにラベル付けされた文書画像の合成により,モデルのトレーニングデータを充実させる。
提案手法は,他のテキスト検出手法を上回る性能を有する実文書データセットで実証される。
論文 参考訳(メタデータ) (2021-06-10T07:08:31Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。