論文の概要: Artistic-style text detector and a new Movie-Poster dataset
- arxiv url: http://arxiv.org/abs/2406.16307v1
- Date: Mon, 24 Jun 2024 04:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:03:25.365443
- Title: Artistic-style text detector and a new Movie-Poster dataset
- Title(参考訳): アートスタイルテキスト検出器と新しいMovie-Posterデータセット
- Authors: Aoxiang Ning, Yiting Wei, Minglong Xue, Senming Zhong,
- Abstract要約: 本稿では,Criss-Cross Attentionと高密度ブロックを用いて,芸術的テクスト検出の不完全かつ誤診断に対処する手法を提案する。
提案手法はMovie-Posterデータセットに優れ,複数のベンチマークデータセットに対して優れた結果が得られる。
- 参考スコア(独自算出の注目度): 1.6624384368855527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although current text detection algorithms demonstrate effectiveness in general scenarios, their performance declines when confronted with artistic-style text featuring complex structures. This paper proposes a method that utilizes Criss-Cross Attention and residual dense block to address the incomplete and misdiagnosis of artistic-style text detection by current algorithms. Specifically, our method mainly consists of a feature extraction backbone, a feature enhancement network, a multi-scale feature fusion module, and a boundary discrimination module. The feature enhancement network significantly enhances the model's perceptual capabilities in complex environments by fusing horizontal and vertical contextual information, allowing it to capture detailed features overlooked in artistic-style text. We incorporate residual dense block into the Feature Pyramid Network to suppress the effect of background noise during feature fusion. Aiming to omit the complex post-processing, we explore a boundary discrimination module that guides the correct generation of boundary proposals. Furthermore, given that movie poster titles often use stylized art fonts, we collected a Movie-Poster dataset to address the scarcity of artistic-style text data. Extensive experiments demonstrate that our proposed method performs superiorly on the Movie-Poster dataset and produces excellent results on multiple benchmark datasets. The code and the Movie-Poster dataset will be available at: https://github.com/biedaxiaohua/Artistic-style-text-detection
- Abstract(参考訳): 現在のテキスト検出アルゴリズムは、一般的なシナリオでは有効性を示すが、複雑な構造を持つ芸術的スタイルのテキストに直面すると、その性能は低下する。
本稿では,Criss-Cross Attentionと高密度ブロックを用いて,現代アルゴリズムによるアートスタイルのテキスト検出の不完全・誤検出に対処する手法を提案する。
具体的には,主に特徴抽出バックボーン,機能拡張ネットワーク,マルチスケール機能融合モジュール,境界識別モジュールから構成される。
機能強化ネットワークは、水平および垂直の文脈情報を融合することにより、複雑な環境におけるモデルの知覚能力を著しく向上させ、芸術的なスタイルのテキストで見落とされた詳細な特徴を捉えることができる。
本研究では,高密度ブロックを特徴ピラミッドネットワークに組み込み,特徴融合時の背景雑音の影響を抑制する。
複雑な後処理を省略することを目的として,境界提案の正しい生成を導く境界識別モジュールを探索する。
さらに,ポスターのタイトルがスタイリングされたアートフォントを使用することが多いことを踏まえ,アートスタイルのテキストデータの不足に対処するため,映画ポスターデータセットを収集した。
大規模な実験により,提案手法はMovie-Posterデータセットよりも優れた性能を示し,複数のベンチマークデータセットに対して優れた結果が得られた。
https://github.com/biedaxiaohua/Artistic-style-text-detection
関連論文リスト
- Seeing Text in the Dark: Algorithm and Benchmark [28.865779563872977]
そこで本研究では,暗黒領域におけるテキストのローカライズのための,効率的かつ効果的な単一ステージアプローチを提案する。
テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。
様々な場面や言語を含む任意の字形テキストのための包括的低照度データセットを提案する。
論文 参考訳(メタデータ) (2024-04-13T11:07:10Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Toward Real Text Manipulation Detection: New Dataset and New Solution [58.557504531896704]
プロフェッショナルなテキスト操作に関連する高コストは、現実世界のデータセットの可用性を制限する。
本稿では,14,250枚のテキスト画像を含むリアルテキスト操作データセットを提案する。
我々のコントリビューションは、実世界のテキスト改ざん検出の進歩を促進することを目的としている。
論文 参考訳(メタデータ) (2023-12-12T02:10:16Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Deformation Robust Text Spotting with Geometric Prior [5.639053898266709]
我々は,文字の複雑な変形の認識問題を解決するために,頑健なテキストスポッティング法(DR TextSpotter)を開発した。
グラフ畳み込みネットワークは、キャラクタの特徴とランドマークの特徴を融合させ、セマンティック推論を行い、異なるキャラクタの識別を強化する。
論文 参考訳(メタデータ) (2023-08-31T02:13:15Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Attention-based Feature Decomposition-Reconstruction Network for Scene
Text Detection [20.85468268945721]
シーンテキスト検出のための注意に基づく特徴分解再構成ネットワークを提案する。
我々は文脈情報と低レベル特徴を用いてセグメンテーションに基づくテキスト検出の性能を向上させる。
2つの公開ベンチマークデータセットを用いて実験を行い,提案手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2021-11-29T06:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。