Fugu-MT 論文翻訳(概要): Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss

論文の概要: Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss

arxiv url: http://arxiv.org/abs/2403.07518v1
Date: Tue, 12 Mar 2024 10:54:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 21:52:03.188408
Title: Open-Vocabulary Scene Text Recognition via Pseudo-Image Labeling and Margin Loss
Title（参考訳）: Pseudo- Image Labeling と Margin Loss によるオープンボキャブラリシーンのテキスト認識
Authors: Xuhua Ren, Hengcan Shi, Jin Li
Abstract要約: オープン語彙テキスト認識フレームワークPseudo-OCRを提案する。 ICDAR2022チャレンジでは,8つのデータセットで最先端のパフォーマンスを達成し,第1位を達成している。
参考スコア（独自算出の注目度）: 9.062289469387478
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text recognition is an important and challenging task in computer vision. However, most prior works focus on recognizing pre-defined words, while there are various out-of-vocabulary (OOV) words in real-world applications. In this paper, we propose a novel open-vocabulary text recognition framework, Pseudo-OCR, to recognize OOV words. The key challenge in this task is the lack of OOV training data. To solve this problem, we first propose a pseudo label generation module that leverages character detection and image inpainting to produce substantial pseudo OOV training data from real-world images. Unlike previous synthetic data, our pseudo OOV data contains real characters and backgrounds to simulate real-world applications. Secondly, to reduce noises in pseudo data, we present a semantic checking mechanism to filter semantically meaningful data. Thirdly, we introduce a quality-aware margin loss to boost the training with pseudo data. Our loss includes a margin-based part to enhance the classification ability, and a quality-aware part to penalize low-quality samples in both real and pseudo data. Extensive experiments demonstrate that our approach outperforms the state-of-the-art on eight datasets and achieves the first rank in the ICDAR2022 challenge.
Abstract（参考訳）: シーンテキスト認識はコンピュータビジョンにおいて重要かつ困難な課題である。しかし、多くの先行研究は定義済みの単語の認識に重点を置いており、実際の応用には様々な外語彙(OOV)がある。本稿では,oov単語を認識するための新しいオープンボキャブラリーテキスト認識フレームワークであるpseudo-ocrを提案する。このタスクにおける重要な課題は、OOVトレーニングデータの欠如である。そこで本研究では,文字検出と画像インパインティングを利用した擬似ラベル生成モジュールを提案し,実世界の画像から実質的な擬似OOVトレーニングデータを生成する。従来の合成データとは異なり、擬似OOVデータには実世界の応用をシミュレートするための実像と背景が含まれている。次に,疑似データのノイズを低減するために,意味的に有意味なデータをフィルタする意味チェック機構を提案する。第3に,疑似データによるトレーニングを促進するために,品質を意識したマージン損失を導入する。私たちの損失には、分類能力を高めるマージンベースの部分と、実データと疑似データの両方で低品質のサンプルをペナライズする品質認識部分が含まれています。大規模な実験により、我々の手法は8つのデータセットで最先端の手法より優れており、ICDAR2022チャレンジで第1位を獲得します。

関連論文リスト

ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation [23.118080583803266]
ROVIは,画像生成のための高品質な合成データセットである。私たちの重要なイノベーションは、リキャプション(recaptioning)と呼ばれる戦略です。実証的目的のために、ROVIで訓練されたテキスト・ツー・イメージモデルGLIGENは、例えば精度、迅速な忠実度、美的品質において最先端の代替品よりも著しく優れている。
論文参考訳（メタデータ） (2025-08-01T18:19:51Z)
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring [26.174094671736686]
視覚的調律データセットのための品質駆動型データ選択パイプラインを提案する。クロスモダリティアセスメントフレームワークを統合し、まず各データエントリを適切な視覚言語タスクに割り当てる。一般的なキャプションとタスク固有のキャプションを生成し、各エントリのアライメント、明度、タスクのラミリティ、テキストコヒーレンス、画像の明度を評価する。
論文参考訳（メタデータ） (2025-06-10T04:04:58Z)
From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval [30.33315985826623]
Composed Image Retrieval (CIR) は、参照画像と付随する修正テキストに基づいてターゲット画像を取得する、困難なマルチモーダルタスクである。本稿では,マッピングから構成に至るまでのトレーニングを行うための2段階のフレームワークを提案する。最初の段階では、視覚的意味注入モジュールを導入して、画像から擬似単語へのトークン学習を強化する。第2段階では、少量の合成三重項データを用いてテキストエンコーダを最適化し、合成意味論を効果的に抽出する。
論文参考訳（メタデータ） (2025-04-25T00:18:23Z)
See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文参考訳（メタデータ） (2024-09-29T06:21:05Z)
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training [6.34265125858783]
本稿では,事前学習の少ない視覚言語事前学習のためのノイズロバストフレームワークを提案する。具体的には、凍結した画像エンコーダと大きな言語モデルとのモダリティギャップを変換器でブリッジする。ノイズ適応学習と概念強化学習の2つの革新的な学習戦略を導入する。
論文参考訳（メタデータ） (2024-09-15T01:54:17Z)
UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文参考訳（メタデータ） (2024-09-06T08:02:43Z)
Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文参考訳（メタデータ） (2023-11-05T01:14:02Z)
Self-Supervised Image Captioning with CLIP [0.0]
本稿では,自己監督型画像キャプション手法を提案する。小さなラベル付きデータセットから初期信号を学んだ後、ラベルなしデータに基づいて自己教師付き学習に移行する。ラベル付きCOCOデータセットの2%未満を活用するにもかかわらず、我々の手法は完全なデータセットでトレーニングされた最先端モデルに匹敵するパフォーマンスを提供する。
論文参考訳（メタデータ） (2023-06-26T23:29:16Z)
Attribute-preserving Face Dataset Anonymization via Latent Code Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文参考訳（メタデータ） (2023-03-20T17:34:05Z)
ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents [3.9688530261646653]
歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
論文参考訳（メタデータ） (2023-03-06T13:39:41Z)
Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%～20.2%向上させる。提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文参考訳（メタデータ） (2022-07-01T03:50:26Z)
Open-Vocabulary DETR with Conditional Matching [86.1530128487077]
OV-DETRは、DETRに基づくオープンボキャブラリ検出器である。クラス名や模範画像が与えられた任意のオブジェクトを検出できる。芸術の現在の状態よりも、ささいな改善を達成している。
論文参考訳（メタデータ） (2022-03-22T16:54:52Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。