論文の概要: Handwritten Text Recognition from Crowdsourced Annotations
- arxiv url: http://arxiv.org/abs/2306.10878v1
- Date: Mon, 19 Jun 2023 12:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 17:58:06.132030
- Title: Handwritten Text Recognition from Crowdsourced Annotations
- Title(参考訳): クラウドソースアノテーションによる手書き文字認識
- Authors: Sol\`ene Tarride, Tristan Faine, M\'elodie Boillet, Harold Mouch\`ere,
Christopher Kermorvant
- Abstract要約: 複数の不完全あるいはノイズのある書き起こしが利用可能である場合に、手書きテキスト認識のためのモデルの訓練方法が異なることを考察する。
この実験は、1790年から1946年の間に書かれたベルフォート市(フランス)の自治体登録簿上で実施されている。
- 参考スコア(独自算出の注目度): 0.1679937788852769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore different ways of training a model for handwritten
text recognition when multiple imperfect or noisy transcriptions are available.
We consider various training configurations, such as selecting a single
transcription, retaining all transcriptions, or computing an aggregated
transcription from all available annotations. In addition, we evaluate the
impact of quality-based data selection, where samples with low agreement are
removed from the training set. Our experiments are carried out on municipal
registers of the city of Belfort (France) written between 1790 and 1946. %
results The results show that computing a consensus transcription or training
on multiple transcriptions are good alternatives. However, selecting training
samples based on the degree of agreement between annotators introduces a bias
in the training data and does not improve the results. Our dataset is publicly
available on Zenodo: https://zenodo.org/record/8041668.
- Abstract(参考訳): 本稿では,複数の不完全あるいはノイズのある書き起こしが利用可能である場合,手書き文字認識のためのモデルをトレーニングする方法の相違について検討する。
単一の書き起こしの選択、すべての書き起こしの保持、利用可能なアノテーションから集約された書き起こしの計算など、さまざまなトレーニング構成を検討する。
また,学習セットから低一致のサンプルを除去した品質に基づくデータ選択の影響を評価する。
我々の実験は1790年から1946年にかけてベルフォート市(フランス)の市登録簿で実施された。
%の結果,コンセンサス文字の計算や複数文字のトレーニングがよい代替手段であることがわかった。
しかし、アノテーション間の一致度に基づいてトレーニングサンプルを選択すると、トレーニングデータにバイアスが生じ、結果が改善されない。
データセットはZenodoで公開されています。
関連論文リスト
- Curriculum Direct Preference Optimization for Diffusion and Consistency Models [110.08057135882356]
テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。
我々のアプローチであるCurriculum DPOは、3つのベンチマークにおける最先端の微調整手法と比較される。
論文 参考訳(メタデータ) (2024-05-22T13:36:48Z) - Leveraging Data Collection and Unsupervised Learning for Code-switched
Tunisian Arabic Automatic Speech Recognition [4.67385883375784]
本稿では,チュニジア方言に着目した自動音声認識(ASR)課題に焦点を当てた。
まず、テキストデータと音声データを収集し、場合によっては注釈を付ける。
第2に、チュニジアのさまざまなテストセットに最先端をプッシュするために、セルフスーパービジョン、セミスーパービジョン、および数ショットのコードスイッチングアプローチについて検討する。
第3に,従来の綴りの欠如を考慮し,テスト基準のスペルから発生する騒音を避けるために,転写文の人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-20T13:56:27Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR [10.261890123213622]
自動音声認識(ASR)のためのオンザフライデータ拡張手法を提案する。
ASRのAligned Data Augmentation(ADA)と呼ばれる私たちのメソッドは、トランスクリプトされたトークンと音声表現を整列した方法で置き換えて、トレーニングペアを生成します。
論文 参考訳(メタデータ) (2021-04-03T13:00:00Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - TS-Net: OCR Trained to Switch Between Text Transcription Styles [0.0]
Transcription Style Block (TSB) による既存のテキスト認識ネットワーク拡張を提案する。
TSBは、転写規則の明確な知識なしに、複数の転写スタイルを切り替えるデータから学ぶことができます。
TSBは、人工データに対する制御実験において、完全に異なる転写様式を学習できることを示した。
論文 参考訳(メタデータ) (2021-03-09T15:21:40Z) - Textual Supervision for Visually Grounded Spoken Language Understanding [51.93744335044475]
音声から意味情報を抽出する音声言語理解モデル
これは、書き起こしが高価または入手が不可能な低リソース言語に有用である。
最近の研究では、これらのモデルがトレーニング時に転写可能であれば改善できることが示されている。
論文 参考訳(メタデータ) (2020-10-06T15:16:23Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Bootstrapping Weakly Supervised Segmentation-free Word Spotting through
HMM-based Alignment [0.5076419064097732]
ボックスアノテーションを行わずに書き起こしを利用して単語スポッティングモデルを訓練する手法を提案する。
これは、隠れマルコフモデルに基づいたトレーニング不要アライメント手順によって行われる。
デジタル転写データは、すでに多くの関心を集めている部分に対して存在するので、より一般的な単語スポッティングの活用に向けた大きな進歩であると考えています。
論文 参考訳(メタデータ) (2020-03-24T19:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。