論文の概要: Self-Supervised Learning for Text Recognition: A Critical Survey
- arxiv url: http://arxiv.org/abs/2407.19889v1
- Date: Mon, 29 Jul 2024 11:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:06:25.713654
- Title: Self-Supervised Learning for Text Recognition: A Critical Survey
- Title(参考訳): テキスト認識のための自己指導型学習 : 批判的調査
- Authors: Carlos Penarrubia, Jose J. Valero-Mas, Jorge Calvo-Zaragoza,
- Abstract要約: テキスト認識(英語: Text Recognition, TR)とは、画像からテキスト情報を取得することに焦点を当てた研究領域である。
ディープニューラルネットワーク(DNN)のトレーニングにラベルなしデータの大規模なデータセットを活用することで、自己監視学習(SSL)が注目されている。
本稿では,TR分野におけるSSLの利用を集約し,その技術の現状を概観する。
- 参考スコア(独自算出の注目度): 11.599791967838481
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text Recognition (TR) refers to the research area that focuses on retrieving textual information from images, a topic that has seen significant advancements in the last decade due to the use of Deep Neural Networks (DNN). However, these solutions often necessitate vast amounts of manually labeled or synthetic data. Addressing this challenge, Self-Supervised Learning (SSL) has gained attention by utilizing large datasets of unlabeled data to train DNN, thereby generating meaningful and robust representations. Although SSL was initially overlooked in TR because of its unique characteristics, recent years have witnessed a surge in the development of SSL methods specifically for this field. This rapid development, however, has led to many methods being explored independently, without taking previous efforts in methodology or comparison into account, thereby hindering progress in the field of research. This paper, therefore, seeks to consolidate the use of SSL in the field of TR, offering a critical and comprehensive overview of the current state of the art. We will review and analyze the existing methods, compare their results, and highlight inconsistencies in the current literature. This thorough analysis aims to provide general insights into the field, propose standardizations, identify new research directions, and foster its proper development.
- Abstract(参考訳): テキスト認識(英語: Text Recognition, TR)とは、画像からテキスト情報を取得することに焦点を当てた研究分野である。
しかし、これらのソリューションは、しばしば大量の手動ラベル付きまたは合成データを必要とする。
この課題に対処するため、自己監視学習(SSL)は、ラベルなしデータの大規模なデータセットを使用してDNNのトレーニングを行い、有意義で堅牢な表現を生成することで注目を集めている。
SSLは、その特徴から当初TRでは見落とされたが、近年は、この分野に特化したSSLメソッドの開発が急増しているのを目撃している。
しかし、この急速な発展は、方法論や比較において過去の努力を考慮せずに独立して多くの手法が研究され、研究分野の進歩を妨げている。
そこで本論文は,TR分野におけるSSLの利用を集約し,最先端技術に関する批判的かつ包括的な概要を提供する。
既存の手法をレビューし、分析し、その結果を比較し、現在の文献の矛盾を強調します。
この徹底的な分析は、分野に関する一般的な洞察を提供し、標準化を提案し、新しい研究方向を特定し、その適切な開発を促進することを目的としている。
関連論文リスト
- From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。
CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。
本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文 参考訳(メタデータ) (2024-09-19T02:51:54Z) - A Survey of the Self Supervised Learning Mechanisms for Vision Transformers [5.152455218955949]
視覚タスクにおける自己教師あり学習(SSL)の適用は注目されている。
SSL手法を体系的に分類する包括的分類法を開発した。
SSLの背後にあるモチベーションについて議論し、人気のある事前トレーニングタスクをレビューし、この分野の課題と進歩を強調します。
論文 参考訳(メタデータ) (2024-08-30T07:38:28Z) - Fine-Grained Zero-Shot Learning: Advances, Challenges, and Prospects [84.36935309169567]
ゼロショット学習(ZSL)における微粒化解析の最近の進歩を概観する。
まず、各カテゴリの詳細な分析を行い、既存の手法と手法の分類について述べる。
次に、ベンチマークを要約し、公開データセット、モデル、実装、およびライブラリとしての詳細について説明する。
論文 参考訳(メタデータ) (2024-01-31T11:51:24Z) - Self-Supervised Learning for Time Series Analysis: Taxonomy, Progress, and Prospects [84.6945070729684]
自己教師付き学習(SSL)は、最近、様々な時系列タスクで印象的なパフォーマンスを達成した。
この記事では、時系列データに対する最先端のSSLメソッドについてレビューする。
論文 参考訳(メタデータ) (2023-06-16T18:23:10Z) - Deep Learning for Survival Analysis: A Review [7.016568778869699]
深層学習(DL)技術の生存分析分野への流入は,方法論的な進歩をもたらした。
本研究は,DL関連属性およびDL関連属性に基づいて,DLに基づく時間-時間分析手法の体系的レビューを行う。
論文 参考訳(メタデータ) (2023-05-24T09:56:20Z) - Robust Saliency-Aware Distillation for Few-shot Fine-grained Visual
Recognition [57.08108545219043]
サンプルが少ない新しいサブカテゴリを認識することは、コンピュータビジョンにおいて不可欠で挑戦的な研究課題である。
既存の文献は、ローカルベースの表現アプローチを採用することでこの問題に対処している。
本稿では,ロバスト・サリエンシ・アウェア蒸留法(RSaD)を提案する。
論文 参考訳(メタデータ) (2023-05-12T00:13:17Z) - Semi-Supervised and Unsupervised Deep Visual Learning: A Survey [76.2650734930974]
半教師なし学習と教師なし学習は、ラベルなしの視覚データから学ぶための有望なパラダイムを提供する。
本稿では, 半教師付き学習(SSL)と非教師付き学習(UL)の先進的な深層学習アルゴリズムについて, 統一的な視点による視覚的認識について概説する。
論文 参考訳(メタデータ) (2022-08-24T04:26:21Z) - Self-supervised on Graphs: Contrastive, Generative,or Predictive [25.679620842010422]
SSL(Self-supervised Learning)は、よく設計されたプリテキストタスクを通じて有益な知識を抽出するための新しいパラダイムとして登場しています。
既存のグラフSSLメソッドは、コントラスト、生成、予測の3つのカテゴリに分けられる。
また、一般的なデータセット、評価メトリクス、下流タスク、さまざまなアルゴリズムのオープンソース実装をまとめています。
論文 参考訳(メタデータ) (2021-05-16T03:30:03Z) - Graph-based Semi-supervised Learning: A Comprehensive Review [51.26862262550445]
半教師付き学習(ssl)はラベル付きデータとラベルなしデータの両方を利用する能力があるため、実際非常に価値があります。
重要なSSLメソッドのクラスは、グラフベースの半教師付き学習(GSSL)メソッドに対応するグラフとしてデータを自然に表現することです。
GSSLメソッドは、構造のユニークさ、アプリケーションの普遍性、大規模データへのスケーラビリティのために、さまざまなドメインでその利点を実証しています。
論文 参考訳(メタデータ) (2021-02-26T05:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。