論文の概要: CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2303.09347v2
- Date: Fri, 26 Apr 2024 19:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 01:44:16.318112
- Title: CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition
- Title(参考訳): CSSL-MHTR: スケーラブルなマルチスクリプト手書き文字認識のための継続的自己教師付き学習
- Authors: Marwa Dhiaf, Mohamed Ali Souibgui, Kai Wang, Yuyang Liu, Yousri Kessentini, Alicia Fornés, Ahmed Cheikh Rouhou,
- Abstract要約: 我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
- 参考スコア(独自算出の注目度): 16.987008461171065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning has recently emerged as a strong alternative in document analysis. These approaches are now capable of learning high-quality image representations and overcoming the limitations of supervised methods, which require a large amount of labeled data. However, these methods are unable to capture new knowledge in an incremental fashion, where data is presented to the model sequentially, which is closer to the realistic scenario. In this paper, we explore the potential of continual self-supervised learning to alleviate the catastrophic forgetting problem in handwritten text recognition, as an example of sequence recognition. Our method consists in adding intermediate layers called adapters for each task, and efficiently distilling knowledge from the previous model while learning the current task. Our proposed framework is efficient in both computation and memory complexity. To demonstrate its effectiveness, we evaluate our method by transferring the learned model to diverse text recognition downstream tasks, including Latin and non-Latin scripts. As far as we know, this is the first application of continual self-supervised learning for handwritten text recognition. We attain state-of-the-art performance on English, Italian and Russian scripts, whilst adding only a few parameters per task. The code and trained models will be publicly available.
- Abstract(参考訳): 自己教師型学習がドキュメント分析の強力な代替手段として最近登場した。
これらの手法は、高品質な画像表現を学習し、大量のラベル付きデータを必要とする教師付き手法の限界を克服することができる。
しかし、これらの手法は段階的な方法で新しい知識を捉えることができず、そこではデータが連続的にモデルに提示され、現実的なシナリオに近い。
本稿では,手書き文字認識における破滅的忘れ問題を軽減するために,連続的な自己教師型学習の可能性について検討する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
提案するフレームワークは計算量とメモリの複雑さの両方において効率的である。
本手法の有効性を示すために,学習したモデルをラテン文字や非ラテン文字を含む多様なテキスト認識下流タスクに転送することで,本手法の評価を行った。
私たちが知る限り、これは手書き文字認識における連続的な自己教師付き学習の最初の応用である。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
コードとトレーニングされたモデルは一般公開される予定だ。
関連論文リスト
- DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - LEGO: Self-Supervised Representation Learning for Scene Text Images [32.21085469233465]
本研究では,シーンテキスト画像に対する局所的・グローバル的順序対応型自己教師型表現学習手法を提案する。
単語を学習する人間の認知プロセスにインスパイアされて、LEGOのシーケンシャル、セマンティック、構造的特徴をモデル化するための3つの新しいプレテキストタスクを提案する。
LEGO認識器は、6つのベンチマーク上での最先端のシーンテキスト認識方法よりも優れた、あるいは同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-04T14:07:14Z) - Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - An end-to-end, interactive Deep Learning based Annotation system for
cursive and print English handwritten text [0.0]
我々は、印刷版とカーシブ版の両方で書かれたオフライン手書きの原稿に注釈を付ける、革新的で完全なエンドツーエンドパイプラインを提示する。
本手法は,最先端のテキスト検出モデルに基づいて構築された検出システムと,認識システムのための独自のDeep Learningモデルとのアーキテクチャ結合を含む。
論文 参考訳(メタデータ) (2023-04-18T00:24:07Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Pay Attention to What You Read: Non-recurrent Handwritten Text-Line
Recognition [4.301658883577544]
変換器モデルを用いて手書きテキストを認識する非反復的手法を提案する。
我々は文字認識に取り組み、復号化すべき文字列の言語関連依存関係を学習することができる。
論文 参考訳(メタデータ) (2020-05-26T21:15:20Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。