論文の概要: Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2208.00438v1
- Date: Sun, 31 Jul 2022 14:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 13:54:58.694285
- Title: Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition
- Title(参考訳): WordArt:シーンテキスト認識のためのコーナーガイド変換器の理解に向けて
- Authors: Xudong Xie, Ling Fu, Zhifei Zhang, Zhaowen Wang, Xiang Bai
- Abstract要約: 我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
- 参考スコア(独自算出の注目度): 63.6608759501803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artistic text recognition is an extremely challenging task with a wide range
of applications. However, current scene text recognition methods mainly focus
on irregular text while have not explored artistic text specifically. The
challenges of artistic text recognition include the various appearance with
special-designed fonts and effects, the complex connections and overlaps
between characters, and the severe interference from background patterns. To
alleviate these problems, we propose to recognize the artistic text at three
levels. Firstly, corner points are applied to guide the extraction of local
features inside characters, considering the robustness of corner structures to
appearance and shape. In this way, the discreteness of the corner points cuts
off the connection between characters, and the sparsity of them improves the
robustness for background interference. Secondly, we design a character
contrastive loss to model the character-level feature, improving the feature
representation for character classification. Thirdly, we utilize Transformer to
learn the global feature on image-level and model the global relationship of
the corner points, with the assistance of a corner-query cross-attention
mechanism. Besides, we provide an artistic text dataset to benchmark the
performance. Experimental results verify the significant superiority of our
proposed method on artistic text recognition and also achieve state-of-the-art
performance on several blurred and perspective datasets.
- Abstract(参考訳): 芸術的テキスト認識は、幅広いアプリケーションにおいて非常に困難なタスクである。
しかし,現状のシーンテキスト認識手法は主に不規則なテキストに焦点を当てているが,特に芸術的テキストは研究されていない。
芸術的テキスト認識の課題は、特殊にデザインされたフォントや効果、文字間の複雑な接続や重なり、背景パターンからの深刻な干渉などである。
これらの問題を緩和するために,芸術的テキストを3つのレベルで認識することを提案する。
まず,文字内部の局所的特徴の抽出にコーナーポイントを適用し,コーナー構造が外観や形状に頑健であることを考慮する。
このようにして、コーナーポイントの離散性は文字間の接続を遮断し、それらの間隔は背景干渉の堅牢性を改善する。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,画像レベルにおけるグローバル特徴の学習にtransformerを用い,コーナークエリ・クロス・アテンション機構の助けを借りて,コーナーポイントのグローバル関係をモデル化する。
さらに、パフォーマンスをベンチマークするアートテキストデータセットも提供します。
実験により,提案手法が芸術的テキスト認識において有意に優れていることを検証し,複数のボケや遠近法データセットにおいて最先端の性能を実現することができた。
関連論文リスト
- VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models [53.59400446543756]
柔軟な芸術的タイポグラフィーを実現するために,二枝・無訓練の手法であるVitaGlyphを導入する。
VitaGlyphは入力文字を被写体と周囲からなるシーンとして扱い、次に幾何変換の度合いでそれらをレンダリングする。
実験結果から、VitaGlyphは芸術性や可読性の向上だけでなく、複数のカスタマイズ概念を表現できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T16:48:47Z) - CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Deformation Robust Text Spotting with Geometric Prior [5.639053898266709]
我々は,文字の複雑な変形の認識問題を解決するために,頑健なテキストスポッティング法(DR TextSpotter)を開発した。
グラフ畳み込みネットワークは、キャラクタの特徴とランドマークの特徴を融合させ、セマンティック推論を行い、異なるキャラクタの識別を強化する。
論文 参考訳(メタデータ) (2023-08-31T02:13:15Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。