論文の概要: Spatial Context-based Self-Supervised Learning for Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2404.11585v1
- Date: Wed, 17 Apr 2024 17:33:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 12:56:30.607777
- Title: Spatial Context-based Self-Supervised Learning for Handwritten Text Recognition
- Title(参考訳): 手書き文字認識のための空間文脈に基づく自己教師付き学習
- Authors: Carlos Penarrubia, Carlos Garrido-Munoz, Jose J. Valero-Mas, Jorge Calvo-Zaragoza,
- Abstract要約: 手書き文字認識(HTR)はコンピュータビジョンにおける問題である。
コンピュータビジョンにおける自己監視学習(SSL)の成功にもかかわらず、HTRへの応用はかなり散在している。
本稿では,HTRに適応し最適化する手法について検討し,手書き文字の特徴を活かした新しい手法を提案する。
- 参考スコア(独自算出の注目度): 11.462075538526705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten Text Recognition (HTR) is a relevant problem in computer vision, and implies unique challenges owing to its inherent variability and the rich contextualization required for its interpretation. Despite the success of Self-Supervised Learning (SSL) in computer vision, its application to HTR has been rather scattered, leaving key SSL methodologies unexplored. This work focuses on one of them, namely Spatial Context-based SSL. We investigate how this family of approaches can be adapted and optimized for HTR and propose new workflows that leverage the unique features of handwritten text. Our experiments demonstrate that the methods considered lead to advancements in the state-of-the-art of SSL for HTR in a number of benchmark cases.
- Abstract(参考訳): 手書き文字認識(HTR)は、コンピュータビジョンにおける問題であり、その固有の変数と、その解釈に必要なリッチな文脈化のために固有の課題を暗示している。
コンピュータビジョンにおける自己監視学習(SSL)の成功にもかかわらず、HTRへの応用はかなり散在しており、主要なSSL方法論は未解明のままである。
この作業は、Spatial ContextベースのSSLという、その1つに焦点を当てている。
本稿では,HTRに適応し最適化する手法について検討し,手書きテキストの特徴を活かした新たなワークフローを提案する。
本実験は,HTRにおけるSSLの最先端化に繋がると考えられる手法について,多くのベンチマークケースで検証した。
関連論文リスト
- Self-Supervised Learning for Text Recognition: A Critical Survey [11.599791967838481]
テキスト認識(英語: Text Recognition, TR)とは、画像からテキスト情報を取得することに焦点を当てた研究領域である。
ディープニューラルネットワーク(DNN)のトレーニングにラベルなしデータの大規模なデータセットを活用することで、自己監視学習(SSL)が注目されている。
本稿では,TR分野におけるSSLの利用を集約し,その技術の現状を概観する。
論文 参考訳(メタデータ) (2024-07-29T11:11:17Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Reverse Engineering Self-Supervised Learning [17.720366509919167]
自己教師型学習(SSL)は機械学習の強力なツールである。
本稿ではSSL学習表現の詳細な実験的検討を行う。
論文 参考訳(メタデータ) (2023-05-24T23:15:28Z) - Understanding and Improving the Role of Projection Head in
Self-Supervised Learning [77.59320917894043]
自己教師付き学習(SSL)は、人間のラベル付きデータアノテーションにアクセスせずに有用な特徴表現を作成することを目的としている。
現在の対照的な学習アプローチは、InfoNCEの目的を最適化するために、あるバックボーンネットワークの端にパラメータ化されたプロジェクションヘッドを付加する。
学習可能なプロジェクションヘッドが、トレーニング後にそれを破棄する場合、なぜ必要となるのか?
論文 参考訳(メタデータ) (2022-12-22T05:42:54Z) - Revisiting the Roles of "Text" in Text Games [102.22750109468652]
本稿では,強化学習におけるテキストの役割について検討する。
本稿では,関連するコンテキスト情報を近似状態ハッシュに抽出する簡単な手法を提案する。
このような軽量なプラグインは最先端のテキストエージェントとの競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T21:52:39Z) - Why does Self-Supervised Learning for Speech Recognition Benefit Speaker
Recognition? [86.53044183309824]
話者関連課題における自己教師型学習の成功につながる要因について検討する。
Voxceleb-1データセットにおける実験結果から,SVタスクに対するSSLの利点は,マスクによる予測損失,データスケール,モデルサイズの組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T08:35:57Z) - Representation Learning for Resource-Constrained Keyphrase Generation [78.02577815973764]
本稿では,言語モデリングの目的を導くために,有能なスパンリカバリと有能なスパン予測を導入する。
提案手法が低リソースおよびゼロショットのキーフレーズ生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:48:04Z) - Cross Knowledge-based Generative Zero-Shot Learning Approach with
Taxonomy Regularization [5.280368849852332]
我々は、Cross Knowledge Learning(CKL)スキームとTaxonomy Regularization(TR)を採用したネットワークベースのZSLアプローチを開発する。
CKLは、ZSLにセマンティックとビジュアルの機能を埋め込むための、より関連性の高いセマンティック機能をトレーニングできる。
TRは、生成ネットワークから生成されるより一般化された視覚特徴を持つ見えない画像との交差を著しく改善する。
論文 参考訳(メタデータ) (2021-01-25T04:38:18Z) - On Data-Augmentation and Consistency-Based Semi-Supervised Learning [77.57285768500225]
最近提案された整合性に基づく半教師付き学習(SSL)手法は,複数のSSLタスクにおいて最先端技術である。
これらの進歩にもかかわらず、これらの手法の理解はまだ比較的限られている。
論文 参考訳(メタデータ) (2021-01-18T10:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。