論文の概要: CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script
Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2303.09347v1
- Date: Thu, 16 Mar 2023 14:27:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:11:55.238692
- Title: CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script
Handwritten Text Recognition
- Title(参考訳): CSSL-MHTR: スケーラブルなマルチスクリプト手書き文字認識のための継続的自己教師付き学習
- Authors: Marwa Dhiaf, Mohamed Ali Souibgui, Kai Wang, Yuyang Liu, Yousri
Kessentini, Alicia Forn\'es, Ahmed Cheikh Rouhou
- Abstract要約: 我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
- 参考スコア(独自算出の注目度): 7.39273105421963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning has recently emerged as a strong alternative in
document analysis. These approaches are now capable of learning high-quality
image representations and overcoming the limitations of supervised methods,
which require a large amount of labeled data. However, these methods are unable
to capture new knowledge in an incremental fashion, where data is presented to
the model sequentially, which is closer to the realistic scenario. In this
paper, we explore the potential of continual self-supervised learning to
alleviate the catastrophic forgetting problem in handwritten text recognition,
as an example of sequence recognition. Our method consists in adding
intermediate layers called adapters for each task, and efficiently distilling
knowledge from the previous model while learning the current task. Our proposed
framework is efficient in both computation and memory complexity. To
demonstrate its effectiveness, we evaluate our method by transferring the
learned model to diverse text recognition downstream tasks, including Latin and
non-Latin scripts. As far as we know, this is the first application of
continual self-supervised learning for handwritten text recognition. We attain
state-of-the-art performance on English, Italian and Russian scripts, whilst
adding only a few parameters per task. The code and trained models will be
publicly available.
- Abstract(参考訳): 自己教師型学習がドキュメント分析の強力な代替手段として最近登場した。
これらのアプローチは、高品質の画像表現を学習し、大量のラベル付きデータを必要とする教師付きメソッドの制限を克服することができる。
しかし、これらの手法は、データを逐次的にモデルに提示し、現実的なシナリオに近い、インクリメンタルな方法で新しい知識を捉えることができない。
本稿では,手書き文字認識における破滅的忘れ問題を軽減するために,連続的な自己教師型学習の可能性について検討する。
本手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前のモデルから効率的に知識を抽出する。
提案フレームワークは計算とメモリの複雑さの両方において効率的である。
本手法の有効性を実証するために,ラテン文字や非ラテン文字を含む様々なテキスト認識下流タスクに学習モデルを移行することで評価した。
私たちが知る限り、これは手書きテキスト認識における継続的自己教師付き学習の最初の応用である。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成し、タスク毎に数個のパラメータを追加しています。
コードとトレーニングされたモデルは一般公開される。
関連論文リスト
- Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge
Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。
マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T08:32:18Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Multimodal Semi-Supervised Learning for Text Recognition [10.33262222726707]
本稿では,モダリティ学習の各段階におけるラベルなしデータを活用する多モーダルテキスト認識器(SemiMTR)について半教師付き学習を行う。
我々のアルゴリズムは、教師あり学習と自己教師あり学習を一体化する一段階の訓練を通して、視覚モデルを事前訓練することから始まる。
新たなセットアップでは、各モダリティに個別に一貫性が強制される。
論文 参考訳(メタデータ) (2022-05-08T13:55:30Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Pay Attention to What You Read: Non-recurrent Handwritten Text-Line
Recognition [4.301658883577544]
変換器モデルを用いて手書きテキストを認識する非反復的手法を提案する。
我々は文字認識に取り組み、復号化すべき文字列の言語関連依存関係を学習することができる。
論文 参考訳(メタデータ) (2020-05-26T21:15:20Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。