論文の概要: What If We Only Use Real Datasets for Scene Text Recognition? Toward
Scene Text Recognition With Fewer Labels
- arxiv url: http://arxiv.org/abs/2103.04400v1
- Date: Sun, 7 Mar 2021 17:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 23:28:55.521414
- Title: What If We Only Use Real Datasets for Scene Text Recognition? Toward
Scene Text Recognition With Fewer Labels
- Title(参考訳): シーンテキスト認識に本当のデータセットしか使わないとしたら?
ラベルの少ないシーンテキスト認識に向けて
- Authors: Jeonghun Baek, Yusuke Matsui, Kiyoharu Aizawa
- Abstract要約: シーンテキスト認識(STR)タスクは、一般的なプラクティスを持っています:すべての最先端のSTRモデルは、大規模な合成データで訓練されます。
strモデルのトレーニングは、実際のデータが不十分であるため、ほとんど不可能です。
実際のラベル付きデータだけでSTRモデルを十分にトレーニングできることを示します。
- 参考スコア(独自算出の注目度): 53.51264148594141
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scene text recognition (STR) task has a common practice: All state-of-the-art
STR models are trained on large synthetic data. In contrast to this practice,
training STR models only on fewer real labels (STR with fewer labels) is
important when we have to train STR models without synthetic data: for
handwritten or artistic texts that are difficult to generate synthetically and
for languages other than English for which we do not always have synthetic
data. However, there has been implicit common knowledge that training STR
models on real data is nearly impossible because real data is insufficient. We
consider that this common knowledge has obstructed the study of STR with fewer
labels. In this work, we would like to reactivate STR with fewer labels by
disproving the common knowledge. We consolidate recently accumulated public
real data and show that we can train STR models satisfactorily only with real
labeled data. Subsequently, we find simple data augmentation to fully exploit
real data. Furthermore, we improve the models by collecting unlabeled data and
introducing semi- and self-supervised methods. As a result, we obtain a
competitive model to state-of-the-art methods. To the best of our knowledge,
this is the first study that 1) shows sufficient performance by only using real
labels and 2) introduces semi- and self-supervised methods into STR with fewer
labels. Our code and data are available:
https://github.com/ku21fan/STR-Fewer-Labels
- Abstract(参考訳): シーンテキスト認識(STR)タスクは、一般的なプラクティスを持っています:すべての最先端のSTRモデルは、大規模な合成データで訓練されます。
この練習とは対照的に、合成データなしでSTRモデルを訓練する必要があるとき、より少ない実ラベル(ラベルの少ないSTR)でのみSTRモデルをトレーニングすることは重要です。
しかし、実際のデータは不十分であるため、実データ上でSTRモデルをトレーニングすることはほぼ不可能であるという暗黙の共通知識がある。
この共通知識がラベルの少ないSTRの研究を妨げていると考えます。
本研究では,共通知識を否定し,少ないラベルでSTRを再活性化する。
我々は最近蓄積した公開実データを統合することで、STRモデルを実際のラベル付きデータでのみ満足に訓練できることを示します。
その後、実データを完全に活用するための単純なデータ拡張が見つかる。
さらに,ラベルなしデータを収集し,半教師付きおよび自己教師付き手法を導入することで,モデルを改善する。
その結果,最先端手法に対する競争モデルが得られた。
我々の知る限りでは、1)実際のラベルのみを用いることで十分な性能を示す最初の研究であり、2)より少ないラベルを持つSTRに半自己監督手法を導入する。
私たちのコードとデータが利用可能です。 https://github.com/ku21fan/STR-Fewer-Labels
関連論文リスト
- Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - Learning Instructions with Unlabeled Data for Zero-Shot Cross-Task
Generalization [68.91386402390403]
本研究では,学習中の命令をよりよく活用するために,Unlabeled Data Augmented Instruction Tuning (UDIT)を提案する。
タスクやデータセットのさまざまなシナリオにおいて,UDITの有効性を示すための広範な実験を行う。
論文 参考訳(メタデータ) (2022-10-17T15:25:24Z) - Learned Label Aggregation for Weak Supervision [8.819582879892762]
本稿では,ラベル付きデータを容易に生成するために,弱い監視信号を集約するデータプログラミング手法を提案する。
生成したラベルの質は、すべてのLFからノイズの多いラベルを集約し、基底真実のラベルを推測するラベル集約モデルに依存する。
合成されたデータを用いてモデルをトレーニングし、モデルに効果的なアーキテクチャを設計できることを示す。
論文 参考訳(メタデータ) (2022-07-27T14:36:35Z) - Pushing the Performance Limit of Scene Text Recognizer without Human
Annotation [17.092815629040388]
我々は、合成データと多数の実際の未ラベル画像の両方を活用することでSTRモデルを強化することを目指している。
文字レベルの整合性規則化は、シーケンス認識における文字間の不一致を軽減するように設計されている。
論文 参考訳(メタデータ) (2022-04-16T04:42:02Z) - Data Augmentation for Scene Text Recognition [19.286766429954174]
シーンテキスト認識(STR)は、自然界におけるテキストの出現の可能性が大きいため、コンピュータビジョンにおいて難しい課題である。
ほとんどのSTRモデルは、十分に大きくて一般公開された実際のデータセットがないため、トレーニングのために合成データセットに依存しています。
本稿では,STR用に設計した36個の画像拡張関数からなるSTRAugを紹介する。
論文 参考訳(メタデータ) (2021-08-16T07:53:30Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Pseudo-Representation Labeling Semi-Supervised Learning [0.0]
近年、半教師付き学習は、ラベルのないデータを活用してディープラーニングモデルの性能向上に成功している。
本研究は、擬似ラベル付け技術を用いて少量の未ラベルデータを反復的にラベル付けし、それらをトレーニングデータとして使用する、シンプルで柔軟なフレームワークである擬似表現ラベリングを提案する。
従来の手法と比較して、擬似表現ラベリングはより直感的であり、現実世界の実践的な問題を効果的に解決することができる。
論文 参考訳(メタデータ) (2020-05-31T03:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。