論文の概要: Self-supervised Pre-training of Text Recognizers
- arxiv url: http://arxiv.org/abs/2405.00420v1
- Date: Wed, 1 May 2024 09:58:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 16:07:30.675658
- Title: Self-supervised Pre-training of Text Recognizers
- Title(参考訳): テキスト認識者の自己指導型事前学習
- Authors: Martin Kišš, Michal Hradiš,
- Abstract要約: マスク付きラベル予測に基づく自己教師付き事前学習手法について検討する。
我々は、歴史的手書き(ベンサム)と歴史的印刷データセットの実験を行う。
評価の結果,対象領域からのデータの自己教師付き事前学習は非常に効果的であるが,近縁領域からの移行学習よりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate self-supervised pre-training methods for document text recognition. Nowadays, large unlabeled datasets can be collected for many research tasks, including text recognition, but it is costly to annotate them. Therefore, methods utilizing unlabeled data are researched. We study self-supervised pre-training methods based on masked label prediction using three different approaches -- Feature Quantization, VQ-VAE, and Post-Quantized AE. We also investigate joint-embedding approaches with VICReg and NT-Xent objectives, for which we propose an image shifting technique to prevent model collapse where it relies solely on positional encoding while completely ignoring the input image. We perform our experiments on historical handwritten (Bentham) and historical printed datasets mainly to investigate the benefits of the self-supervised pre-training techniques with different amounts of annotated target domain data. We use transfer learning as strong baselines. The evaluation shows that the self-supervised pre-training on data from the target domain is very effective, but it struggles to outperform transfer learning from closely related domains. This paper is one of the first researches exploring self-supervised pre-training in document text recognition, and we believe that it will become a cornerstone for future research in this area. We made our implementation of the investigated methods publicly available at https://github.com/DCGM/pero-pretraining.
- Abstract(参考訳): 本稿では,文書テキスト認識のための自己教師付き事前学習手法について検討する。
今日では、テキスト認識を含む多くの研究タスクに対して、大きなラベルのないデータセットを収集することができるが、それらに注釈をつけるのはコストがかかる。
そのため、ラベルなしデータを利用した手法が研究されている。
マスク付きラベル予測に基づく自己教師付き事前学習手法について,特徴量化,VQ-VAE,ポスト量子化AEを用いて検討した。
また,VICRegとNT-Xentとの共同埋め込み手法について検討し,入力画像を完全に無視しながら位置符号化のみに依存したモデル崩壊を防止するための画像シフト手法を提案する。
注記対象ドメインデータの量が異なる自己教師型事前学習技術の利点を主に調査するため,歴史手書き(ベンサム)および歴史印刷データセットについて実験を行った。
私たちはトランスファーラーニングを強力なベースラインとして使用しています。
評価の結果,対象領域からのデータの自己教師付き事前学習は非常に効果的であるが,近縁領域からの移行学習よりも優れていることがわかった。
本論文は,文書テキスト認識における自己指導型事前学習を探求する最初の研究の1つであり,この領域における今後の研究の基盤となると信じている。
調査手法の実装をhttps://github.com/DCGM/pero-pretrainingで公開しました。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Probing Language Models for Pre-training Data Detection [11.37731401086372]
本稿では,モデルの内部アクティベーションを調べることで,事前学習データ検出のための探索手法を提案する。
我々の手法はシンプルで効果的であり、より信頼性の高い事前学習データ検出につながる。
論文 参考訳(メタデータ) (2024-06-03T13:58:04Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Privacy Leakage in Text Classification: A Data Extraction Approach [9.045332526072828]
テキスト分類領域における潜在的なプライバシー漏洩について,意図しないトレーニングデータの暗記の問題を調査して検討する。
モデルによって提供されるクラスラベルの可能性を利用して,部分テキストの欠落トークンを抽出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-09T16:14:26Z) - Towards Textual Out-of-Domain Detection without In-Domain Labels [41.23096594140221]
この研究は、ドメイン内のデータのラベルにアクセスできないOOD検出の難しいケースに焦点を当てている。
まず、トークン列の確率を予測する異なる言語モデルに基づくアプローチを評価する。
教師なしクラスタリングとコントラスト学習を組み合わせた表現学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T00:11:46Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - Unified Instance and Knowledge Alignment Pretraining for Aspect-based
Sentiment Analysis [96.53859361560505]
Aspect-based Sentiment Analysis (ABSA) は、ある側面に対する感情の極性を決定することを目的としている。
事前トレーニングと下流ABSAデータセットの間には、常に深刻なドメインシフトが存在する。
我々は,バニラ・プレトレイン・ファインチューンパイプラインにアライメント事前訓練フレームワークを導入する。
論文 参考訳(メタデータ) (2021-10-26T04:03:45Z) - TraND: Transferable Neighborhood Discovery for Unsupervised Cross-domain
Gait Recognition [77.77786072373942]
本稿では、教師なしクロスドメイン歩行認識のための領域ギャップを橋渡しするTransferable Neighborhood Discovery (TraND) フレームワークを提案する。
我々は、潜在空間におけるラベルなしサンプルの自信ある近傍を自動的に発見するために、エンドツーエンドのトレーニング可能なアプローチを設計する。
提案手法は,CASIA-BとOU-LPの2つの公開データセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-02-09T03:07:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。