論文の概要: I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2105.08383v1
- Date: Tue, 18 May 2021 09:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 20:58:29.156607
- Title: I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text
Recognition
- Title(参考訳): i2c2w:正確なシーン認識のための画像から文字への変換器
- Authors: Chuhui Xue, Shijian Lu, Song Bai, Wenqing Zhang, Changhu Wang
- Abstract要約: 本稿では,シーンの様々なノイズに対して正確かつ耐性のある新しいシーンテキスト認識装置I2C2Wについて述べる。
i2c2wはイメージ・ツー・キャラクタモジュール(i2c)と文字・ワードモジュール(c2w)から構成される。
- 参考スコア(独自算出の注目度): 68.95544645458882
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Leveraging the advances of natural language processing, most recent scene
text recognizers adopt an encoder-decoder architecture where text images are
first converted to representative features and then a sequence of characters
via `direct decoding'. However, scene text images suffer from rich noises of
different sources such as complex background and geometric distortions which
often confuse the decoder and lead to incorrect alignment of visual features at
noisy decoding time steps. This paper presents I2C2W, a novel scene text
recognizer that is accurate and tolerant to various noises in scenes. I2C2W
consists of an image-to-character module (I2C) and a character-to-word module
(C2W) which are complementary and can be trained end-to-end. I2C detects
characters and predicts their relative positions in a word. It strives to
detect all possible characters including incorrect and redundant ones based on
different alignments of visual features without the restriction of time steps.
Taking the detected characters as input, C2W learns from character semantics
and their positions to filter out incorrect and redundant detection and produce
the final word recognition. Extensive experiments over seven public datasets
show that I2C2W achieves superior recognition performances and outperforms the
state-of-the-art by large margins on challenging irregular scene text datasets.
- Abstract(参考訳): 自然言語処理の進歩を利用して、最近のシーンのテキスト認識者はエンコーダ-デコーダアーキテクチャを採用しており、テキストイメージはまず代表的特徴に変換され、その後 ‘direct decoding’ を介して文字のシーケンスに変換される。
しかし、シーンテキスト画像は複雑な背景や幾何歪みなどの様々な音源の豊かなノイズに悩まされ、デコーダを混乱させ、ノイズの多いデコード時間ステップで視覚的特徴の不正なアライメントにつながる。
本稿では,シーンの様々なノイズに対して正確かつ耐性のある新しいシーンテキスト認識装置I2C2Wを提案する。
i2c2wはイメージ・ツー・キャラクタモジュール(i2c)と文字・ワードモジュール(c2w)から構成される。
i2cは文字を検出し、単語内の相対位置を予測する。
時間ステップの制限なしに、異なる視覚的特徴のアライメントに基づいて、不正かつ冗長な文字を含む全ての文字を検出する。
検出された文字を入力として、C2Wは文字の意味とその位置から学習し、不正かつ冗長な検出をフィルタリングし、最終的な単語認識を生成する。
7つの公開データセットに対する大規模な実験は、I2C2Wが優れた認識性能を達成し、不規則なシーンテキストデータセットに対して大きなマージンで最先端のパフォーマンスを達成していることを示している。
関連論文リスト
- VCR: Visual Caption Restoration [80.24176572093512]
画像内の画素レベルのヒントを用いて、部分的に隠されたテキストを正確に復元するモデルに挑戦する視覚言語タスクであるVisual Caption Restoration (VCR)を導入する。
この課題は、画像に埋め込まれたテキストは、視覚、テキスト、および画像に埋め込まれたテキストのモダリティを整合させる必要があるため、共通の視覚要素や自然言語とは本質的に異なるという観察に由来する。
論文 参考訳(メタデータ) (2024-06-10T16:58:48Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting [126.01629300244001]
我々はSwinTextSpotter v2と呼ばれる新しいエンドツーエンドのシーンテキストスポッティングフレームワークを提案する。
我々は,新しい認識変換モジュールと認識アライメントモジュールを用いて,2つのタスク間の関係を強化する。
SwinTextSpotter v2は、様々な多言語(英語、中国語、ベトナム語)のベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-01-15T12:33:00Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification
without Concrete Text Labels [28.42405456691034]
本稿では,画像再識別作業における視覚的表現の改善を目的とした2段階戦略を提案する。
鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じて、CLIPのクロスモーダル記述能力をフル活用することだ。
提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。
論文 参考訳(メタデータ) (2022-11-25T09:41:57Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - SCATTER: Selective Context Attentional Scene Text Recognizer [16.311256552979835]
Scene Text Recognition (STR) は複雑な画像背景に対してテキストを認識するタスクである。
現在のSOTA(State-of-the-art)メソッドは、任意の形で書かれたテキストを認識するのに依然として苦労している。
Selective Context Attentional Text Recognizer (SCATTER) というSTRの新しいアーキテクチャを導入する。
論文 参考訳(メタデータ) (2020-03-25T09:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。