論文の概要: Separate Scene Text Detector for Unseen Scripts is Not All You Need
- arxiv url: http://arxiv.org/abs/2307.15991v1
- Date: Sat, 29 Jul 2023 14:03:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 18:14:40.261749
- Title: Separate Scene Text Detector for Unseen Scripts is Not All You Need
- Title(参考訳): 不要なスクリプトのための分離したシーンテキスト検出器
- Authors: Prateek Keserwani, Taveena Lotey, Rohit Keshari, and Partha Pratim Roy
- Abstract要約: 過去10年間で、いくつかのスクリプトが研究コミュニティの注目を集め、優れた検出性能を達成した。
多くのスクリプトは、ディープラーニングベースのシーンテキスト検出のトレーニングのために低リソースである。
新しいスクリプトの個別のトレーニングが必要か?
本稿では,この問題を認識し,トレーニング中に存在しないスクリプトを検知する手法を提案する。
- 参考スコア(独自算出の注目度): 12.848024214330234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text detection in the wild is a well-known problem that becomes more
challenging while handling multiple scripts. In the last decade, some scripts
have gained the attention of the research community and achieved good detection
performance. However, many scripts are low-resourced for training deep
learning-based scene text detectors. It raises a critical question: Is there a
need for separate training for new scripts? It is an unexplored query in the
field of scene text detection. This paper acknowledges this problem and
proposes a solution to detect scripts not present during training. In this
work, the analysis has been performed to understand cross-script text
detection, i.e., trained on one and tested on another. We found that the
identical nature of text annotation (word-level/line-level) is crucial for
better cross-script text detection. The different nature of text annotation
between scripts degrades cross-script text detection performance. Additionally,
for unseen script detection, the proposed solution utilizes vector embedding to
map the stroke information of text corresponding to the script category. The
proposed method is validated with a well-known multi-lingual scene text dataset
under a zero-shot setting. The results show the potential of the proposed
method for unseen script detection in natural images.
- Abstract(参考訳): ワイルドなテキスト検出はよく知られた問題であり、複数のスクリプトを扱いながらより困難になる。
過去10年間で、いくつかのスクリプトが研究コミュニティの注目を集め、優れた検出性能を達成した。
しかし、深層学習に基づくテキスト検出を訓練するためのスクリプトの多くはローソースである。
新しいスクリプトの個別のトレーニングが必要か?
シーンテキスト検出の分野では未検討のクエリである。
本稿では,この問題を認識し,トレーニング中に存在しないスクリプトを検知する手法を提案する。
この研究では、スクリプト間のテキスト検出を理解するために分析が行われており、一方でトレーニングされ、もう一方でテストされている。
テキストアノテーション(単語レベル/行レベル)の同一性が,文字横断検出において重要であることがわかった。
スクリプト間のテキストアノテーションの異なる性質は、クロススクリプトテキスト検出性能を低下させる。
さらに,未確認のスクリプト検出には,ベクトル埋め込みを用いてスクリプトカテゴリに対応するテキストのストローク情報をマッピングする。
提案手法は、ゼロショット設定下でよく知られた多言語シーンテキストデータセットを用いて検証する。
その結果,本手法が自然画像のスクリプト検出に有用であることが示唆された。
関連論文リスト
- TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - DeepSolo++: Let Transformer Decoder with Explicit Points Solo for Multilingual Text Spotting [112.45423990924283]
DeepSolo++は単純なDETRライクなベースラインで、テキスト検出、認識、スクリプト識別を同時に行うために、明示的なポイントを持つ1つのデコーダを単独で使用することができる。
本手法は、英語のシーンだけでなく、複雑なフォント構造と中国語などの1000レベルの文字クラスで書き起こしを習得する。
論文 参考訳(メタデータ) (2023-05-31T15:44:00Z) - Cursive Caption Text Detection in Videos [5.117030416610515]
本稿では,ビデオフレームに現れるテキストコンテンツを検出するためのロバストな手法を提案する。
我々は、Urduテキストをケーススタディとして、カーシブスクリプトでテキストをターゲットとしています。
字幕テキストを複数文字で持つのが一般的であるため、文字識別モジュールを用いてカーシブテキストとラテンテキストを区別する。
論文 参考訳(メタデータ) (2023-01-09T04:30:48Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。