論文の概要: Text Recognition in the Wild: A Survey
- arxiv url: http://arxiv.org/abs/2005.03492v3
- Date: Thu, 3 Dec 2020 07:06:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 23:44:05.369938
- Title: Text Recognition in the Wild: A Survey
- Title(参考訳): 野生におけるテキスト認識:サーベイ
- Authors: Xiaoxue Chen, Lianwen Jin, Yuanzhi Zhu, Canjie Luo, and Tianwei Wang
- Abstract要約: 本論文は,シーンテキスト認識の分野の全体像を提示する試みである。
この分野に参入する人々に対する包括的なリファレンスを提供しており、将来の研究を刺激するのに役立ちます。
- 参考スコア(独自算出の注目度): 33.22076515689926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The history of text can be traced back over thousands of years. Rich and
precise semantic information carried by text is important in a wide range of
vision-based application scenarios. Therefore, text recognition in natural
scenes has been an active research field in computer vision and pattern
recognition. In recent years, with the rise and development of deep learning,
numerous methods have shown promising in terms of innovation, practicality, and
efficiency. This paper aims to (1) summarize the fundamental problems and the
state-of-the-art associated with scene text recognition; (2) introduce new
insights and ideas; (3) provide a comprehensive review of publicly available
resources; (4) point out directions for future work. In summary, this
literature review attempts to present the entire picture of the field of scene
text recognition. It provides a comprehensive reference for people entering
this field, and could be helpful to inspire future research. Related resources
are available at our Github repository:
https://github.com/HCIILAB/Scene-Text-Recognition.
- Abstract(参考訳): テキストの歴史は何千年にもわたって遡ることができる。
テキストが持つリッチで正確な意味情報は、幅広い視覚ベースのアプリケーションシナリオにおいて重要である。
そのため、自然界におけるテキスト認識はコンピュータビジョンやパターン認識において活発な研究分野となっている。
近年、ディープラーニングの興隆と発展に伴い、多くの手法が革新、実践、効率の面で有望であることが示されている。
本稿では,(1)シーンのテキスト認識に関する基本的な問題と現状を要約すること,(2)新しい洞察とアイデアの導入,(3)公開リソースの総合的なレビュー,(4)今後の作業の方向性について述べることを目的とする。
要約して,本文献レビューはシーンテキスト認識の分野の全体像を提示しようとするものである。
この分野に参入する人々への包括的な参照を提供し、将来の研究を刺激するのに役立ちます。
関連リソースはGithubリポジトリで公開されています。
関連論文リスト
- Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - Automatic and Human-AI Interactive Text Generation [27.05024520190722]
本チュートリアルは、最先端の自然言語生成研究の概要を提供する。
テキストからテキストへの生成タスクは、セマンティック一貫性とターゲット言語スタイルの観点からより制約される。
論文 参考訳(メタデータ) (2023-10-05T20:26:15Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z) - Deep learning for scene recognition from visual data: a survey [2.580765958706854]
この研究は、視覚データから深層学習モデルを用いて、シーン認識における最先端の技術をレビューすることを目的としている。
シーン認識は依然としてコンピュータビジョンの新たな分野であり、単一の画像と動的な画像の観点から対処されてきた。
論文 参考訳(メタデータ) (2020-07-03T16:53:18Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。