論文の概要: Lacuna Reconstruction: Self-supervised Pre-training for Low-Resource
Historical Document Transcription
- arxiv url: http://arxiv.org/abs/2112.08692v1
- Date: Thu, 16 Dec 2021 08:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 01:00:37.821128
- Title: Lacuna Reconstruction: Self-supervised Pre-training for Low-Resource
Historical Document Transcription
- Title(参考訳): Lacunaコンストラクション:低リソース史料の自己教師型事前学習
- Authors: Nikolai Vogler, Jonathan Parkes Allen, Matthew Thomas Miller, Taylor
Berg-Kirkpatrick
- Abstract要約: また,スクラッチから訓練した同じ教師付きモデルに対して,30行の画像書き起こしで認識精度を有意に向上させることを示した。
我々のマスク付き言語モデルスタイルの事前学習戦略では、モデルが同じ行内からサンプリングされた邪魔者から真のマスク付き視覚表現を識別できるように訓練され、堅牢な文脈化された言語表現の学習が促進される。
- 参考スコア(独自算出の注目度): 25.76860672652937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a self-supervised pre-training approach for learning rich visual
language representations for both handwritten and printed historical document
transcription. After supervised fine-tuning of our pre-trained encoder
representations for low-resource document transcription on two languages, (1) a
heterogeneous set of handwritten Islamicate manuscript images and (2) early
modern English printed documents, we show a meaningful improvement in
recognition accuracy over the same supervised model trained from scratch with
as few as 30 line image transcriptions for training. Our masked language
model-style pre-training strategy, where the model is trained to be able to
identify the true masked visual representation from distractors sampled from
within the same line, encourages learning robust contextualized language
representations invariant to scribal writing style and printing noise present
across documents.
- Abstract(参考訳): 本稿では,手書き文書と印刷文書の両方に対して,リッチな視覚表現を学習するための自己教師付き事前学習手法を提案する。
本研究は,(1)手書きイラシエート写本画像の異種集合と(2)現代英語の印刷文書の2つの言語における低リソース文字起こしのための事前学習エンコーダ表現の微調整を行った結果,スクラッチから訓練した同じ教師付きモデルに対して,30行の画像写しで認識精度が有意に向上したことを示す。
マスク付き言語モデルスタイルの事前学習戦略では、同一行内からサンプリングされた邪魔者から真のマスク付き視覚表現を識別できるように訓練し、文書に散在する書字スタイルに不変な頑健な文脈化言語表現と印刷ノイズの学習を奨励する。
関連論文リスト
- Empowering Backbone Models for Visual Text Generation with Input Granularity Control and Glyph-Aware Training [68.41837295318152]
拡散に基づくテキスト・ツー・イメージモデルでは、多様性と美学の素晴らしい成果が示されているが、視覚的なテキストで画像を生成するのに苦労している。
既存のバックボーンモデルには、ミススペル、テキスト生成の失敗、中国語テキストのサポートの欠如といった制限がある。
本稿では,英語と中国語の視覚テキスト生成にバックボーンモデルを活用するための一連の手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T10:25:39Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - Weakly Supervised Scene Text Generation for Low-resource Languages [19.243705770491577]
シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。
既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。
本稿では,いくつかの認識レベルラベルを弱監督として活用する,弱教師付きシーンテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T15:26:06Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。