論文の概要: Text Detection and Recognition in the Wild: A Review
- arxiv url: http://arxiv.org/abs/2006.04305v2
- Date: Tue, 30 Jun 2020 22:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:07:33.294311
- Title: Text Detection and Recognition in the Wild: A Review
- Title(参考訳): 野生におけるテキストの検出と認識 : レビュー
- Authors: Zobeir Raisi, Mohamed A. Naiel, Paul Fieguth, Steven Wardell, and John
Zelek
- Abstract要約: 最先端のシーンテキスト検出および/または認識手法は、ディープラーニングアーキテクチャの進歩を生かしている。
本稿では,シーンテキストの検出と認識の最近の進歩についてレビューする。
また、野生の画像中のテキストを検出し、認識するためのいくつかの既存の課題を特定する。
- 参考スコア(独自算出の注目度): 7.43788469020627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection and recognition of text in natural images are two main problems in
the field of computer vision that have a wide variety of applications in
analysis of sports videos, autonomous driving, industrial automation, to name a
few. They face common challenging problems that are factors in how text is
represented and affected by several environmental conditions. The current
state-of-the-art scene text detection and/or recognition methods have exploited
the witnessed advancement in deep learning architectures and reported a
superior accuracy on benchmark datasets when tackling multi-resolution and
multi-oriented text. However, there are still several remaining challenges
affecting text in the wild images that cause existing methods to underperform
due to there models are not able to generalize to unseen data and the
insufficient labeled data. Thus, unlike previous surveys in this field, the
objectives of this survey are as follows: first, offering the reader not only a
review on the recent advancement in scene text detection and recognition, but
also presenting the results of conducting extensive experiments using a unified
evaluation framework that assesses pre-trained models of the selected methods
on challenging cases, and applies the same evaluation criteria on these
techniques. Second, identifying several existing challenges for detecting or
recognizing text in the wild images, namely, in-plane-rotation, multi-oriented
and multi-resolution text, perspective distortion, illumination reflection,
partial occlusion, complex fonts, and special characters. Finally, the paper
also presents insight into the potential research directions in this field to
address some of the mentioned challenges that are still encountering scene text
detection and recognition techniques.
- Abstract(参考訳): 自然画像中のテキストの検出と認識は、スポーツビデオの分析、自動運転、産業自動化など、さまざまな用途に応用できるコンピュータビジョンの分野における2つの大きな問題である。
テキストの表現方法や環境条件の影響の要因となる、一般的な課題に直面している。
現在の最先端のシーンテキスト検出および/または認識手法は、ディープラーニングアーキテクチャにおける目撃された進歩を活用し、マルチ解像度およびマルチ指向テキストを扱う際のベンチマークデータセット上で優れた精度を報告している。
しかし、既存メソッドを過小評価させるワイルドイメージのテキストに影響を与える課題は、まだいくつか残っており、そのモデルでは、見当たらないデータやラベルが不十分なデータに一般化できないためである。
この分野でのこれまでの調査と異なり,本調査の目的は以下の通りである。第1に,テキスト検出と認識の最近の進歩について,読者にレビューを提供するだけでなく,課題に対して事前学習した手法のモデルを評価する統一評価フレームワークを用いて広範な実験結果を提示し,その評価基準をこれらの手法に適用する。
第2に、野生画像におけるテキストの検出や認識に関する既存の課題、すなわち、面内回転、多方向および多解像度テキスト、視点歪み、照明反射、部分的オクルージョン、複雑なフォント、特殊文字を特定する。
最後に,シーンテキストの検出と認識技術にまだ遭遇している課題のいくつかに対処するため,この分野における潜在的研究の方向性について考察する。
関連論文リスト
- MOoSE: Multi-Orientation Sharing Experts for Open-set Scene Text Recognition [3.6227230205444902]
オープンセットテキスト認識は、新しい文字と以前に見られた文字の両方に対処することを目的としている。
まず,新しい文字と書き方の違いの両方の課題をモデル化するために,MOOSTR(Multi-Oriented Open-Set Text Recognition Task)を提案する。
次に、強力なベースラインソリューションとして、MOoSE(Multi-Orientation Sharing Experts)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-26T09:20:29Z) - Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - Assaying on the Robustness of Zero-Shot Machine-Generated Text Detectors [57.7003399760813]
先進的なLarge Language Models (LLMs) とその特殊な変種を探索し、いくつかの方法でこの分野に寄与する。
トピックと検出性能の間に有意な相関関係が発見された。
これらの調査は、様々なトピックにまたがるこれらの検出手法の適応性と堅牢性に光を当てた。
論文 参考訳(メタデータ) (2023-12-20T10:53:53Z) - Watermarking Conditional Text Generation for AI Detection: Unveiling
Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。
実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2023-07-25T20:24:22Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Deep Learning Approaches on Image Captioning: A Review [0.5852077003870417]
画像キャプションは、静止画像の形で視覚コンテンツのための自然言語記述を生成することを目的としている。
ディープラーニングとビジョン言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法と性能の向上につながった。
この分野で直面している課題は、対象の幻覚、欠落した文脈、照明条件、文脈理解、参照表現といった課題を強調することで解決する。
画像とテキストのモダリティ間の情報不一致問題への対処、データセットバイアスの軽減、字幕生成を向上するための視覚言語事前学習手法の導入、精度向上のための評価ツールの開発など、この分野における研究の今後の方向性について検討する。
論文 参考訳(メタデータ) (2022-01-31T00:39:37Z) - Text-Aware Single Image Specular Highlight Removal [14.624958411229862]
既存の手法では、医用画像や特定対象画像のハイライトを除去するが、テキストで画像を扱うことはできない。
本稿ではまず,テキスト認識による単一画像のハイライト除去問題について検討する。
中心となる目標は、テキスト画像からハイライトを取り除き、テキストの検出と認識の精度を向上させることである。
論文 参考訳(メタデータ) (2021-08-16T03:51:53Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。