論文の概要: Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets
- arxiv url: http://arxiv.org/abs/2503.22513v1
- Date: Fri, 28 Mar 2025 15:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:50.638857
- Title: Masked Self-Supervised Pre-Training for Text Recognition Transformers on Large-Scale Datasets
- Title(参考訳): 大規模データセット上でのテキスト認識変換器のためのマスク付き自己監督型事前学習
- Authors: Martin Kišš, Michal Hradiš,
- Abstract要約: 自己教師付き学習は、大規模未ラベルデータを活用する強力なアプローチとして登場し、モデルパフォーマンスを改善している。
本研究では,マスクの確率を徐々に増加させ,マスク付きパッチと非マスク型パッチの両方を組み込むために損失関数を改良する2つの事前学習フェーズを提案する。
我々は,50万行のラベル付きテキスト行のデータセットを事前学習用として,さらに4つの異なる大きさの注釈付きデータセットを微調整用として,広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Self-supervised learning has emerged as a powerful approach for leveraging large-scale unlabeled data to improve model performance in various domains. In this paper, we explore masked self-supervised pre-training for text recognition transformers. Specifically, we propose two modifications to the pre-training phase: progressively increasing the masking probability, and modifying the loss function to incorporate both masked and non-masked patches. We conduct extensive experiments using a dataset of 50M unlabeled text lines for pre-training and four differently sized annotated datasets for fine-tuning. Furthermore, we compare our pre-trained models against those trained with transfer learning, demonstrating the effectiveness of the self-supervised pre-training. In particular, pre-training consistently improves the character error rate of models, in some cases up to 30 % relatively. It is also on par with transfer learning but without relying on extra annotated text lines.
- Abstract(参考訳): 自己教師付き学習は、様々な領域におけるモデルパフォーマンスを改善するために、大規模にラベル付けされていないデータを活用するための強力なアプローチとして登場した。
本稿では,テキスト認識変換器のためのマスク付き自己教師型事前学習について検討する。
具体的には、マスクの確率を徐々に増加させ、マスク付きパッチと非マスク型パッチの両方を組み込むために損失関数を変更する2つの事前学習フェーズを提案する。
我々は,50万行のラベル付きテキスト行のデータセットを事前学習用として,さらに4つの異なる大きさの注釈付きデータセットを微調整用として,広範囲な実験を行った。
さらに, 自己指導型プレトレーニングの有効性を実証し, トランスファーラーニングで訓練したモデルと比較した。
特に、事前学習はモデルの文字誤り率を常に改善し、場合によっては30%まで相対的に改善する。
また、トランスファーラーニングと同等であるが、追加の注釈付きテキスト行に依存しない。
関連論文リスト
- Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Noisy Self-Training with Data Augmentations for Offensive and Hate
Speech Detection Tasks [3.703767478524629]
ノイズ」自己学習アプローチには、予測整合性を確保し、敵攻撃に対する堅牢性を高めるために、データ拡張技術が組み込まれている。
2つの攻撃的/ヘイト音声データセットについて実験を行い、(i)自己学習はモデルのサイズに関わらず一貫して性能を向上し、両方のデータセットで最大1.5%F1マクロとなり、(ii)テキストデータ拡張によるノイズの多い自己学習は、同様の設定でうまく適用されているにもかかわらず、デフォルトの手法と比較して、バックトランスレーションのような最先端の手法であっても、攻撃的およびヘイト音声ドメインのパフォーマンスを低下させることを示した。
論文 参考訳(メタデータ) (2023-07-31T12:35:54Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Robust Transfer Learning with Pretrained Language Models through
Adapters [40.45102278979193]
BERTのような大きな事前訓練された言語モデルによる伝達学習は、ほとんどのNLPタスクにおいて支配的なアプローチとなっている。
これらの問題を緩和するために, 単純かつ効果的なアダプタベースのアプローチを提案する。
実験により,このような学習手法が,様々な下流タスクへの伝達学習における安定性と対角的堅牢性の向上につながることが示された。
論文 参考訳(メタデータ) (2021-08-05T02:30:13Z) - How Effective is Task-Agnostic Data Augmentation for Pretrained
Transformers? [7.727662147015879]
タスクに依存しないデータ拡張は、事前訓練されたモデルでもコンピュータビジョンにおいて広く有効であることが証明されている。
事前訓練されたトランスフォーマーに適用した場合、これらのテクニックが本当に有効か尋ねる。
非事前学習モデルに対する強い改善を報告した手法は、事前学習した変換器の性能を一貫して改善することができない。
論文 参考訳(メタデータ) (2020-10-05T03:55:15Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。