論文の概要: A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts
- arxiv url: http://arxiv.org/abs/2209.10441v1
- Date: Wed, 21 Sep 2022 15:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:34:02.699675
- Title: A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts
- Title(参考訳): 歴史的写本におけるN-gramスポッティングのためのショット多重表現手法
- Authors: Giuseppe De Gregorio, Sanket Biswas, Mohamed Ali Souibgui, Asma
Bensalah, Josep Llad\'os, Alicia Forn\'es, Angelo Marcelli
- Abstract要約: 少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
- 参考スコア(独自算出の注目度): 1.2930503923129213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent advances in automatic text recognition, the performance
remains moderate when it comes to historical manuscripts. This is mainly
because of the scarcity of available labelled data to train the data-hungry
Handwritten Text Recognition (HTR) models. The Keyword Spotting System (KWS)
provides a valid alternative to HTR due to the reduction in error rate, but it
is usually limited to a closed reference vocabulary. In this paper, we propose
a few-shot learning paradigm for spotting sequences of a few characters
(N-gram) that requires a small amount of labelled training data. We exhibit
that recognition of important n-grams could reduce the system's dependency on
vocabulary. In this case, an out-of-vocabulary (OOV) word in an input
handwritten line image could be a sequence of n-grams that belong to the
lexicon. An extensive experimental evaluation of our proposed
multi-representation approach was carried out on a subset of Bentham's
historical manuscript collections to obtain some really promising results in
this direction.
- Abstract(参考訳): 近年の自動テキスト認識の進歩にもかかわらず、歴史写本に関してはその性能は穏やかである。
これは主に、htr(data-hungry hand written text recognition)モデルのトレーニングに利用可能なラベル付きデータが少ないためである。
キーワードスポッティングシステム(kws)は、エラー率の低減のためにhtrの有効な代替手段を提供するが、通常は閉じた参照語彙に限定される。
本稿では,少量のラベル付き学習データを必要とする少数の文字(N-gram)のシーケンスをスポッティングするための数ショット学習パラダイムを提案する。
重要なn-gramを認識することで,システムの語彙依存度を低減できることを示す。
この場合、入力手書き行画像中のoo-of-vocabulary(OOV)ワードは、辞書に属するn-gramのシーケンスである可能性がある。
ベンサムの古写本コレクションのサブセットを用いて,提案した多表現手法の実験的評価を行い,本手法の真に有望な成果を得た。
関連論文リスト
- Unsupervised Speech Recognition with N-Skipgram and Positional Unigram
Matching [67.98016412551245]
本稿では,新しいASRシステムであるESPUMを紹介する。
このシステムは、少数のサンプルから収集された位置ユニグラム統計と合わせて、低階N-スキップグラム(最大N=3)のパワーを利用する。
本モデルは,ASRと音素セグメンテーションにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-10-03T19:05:32Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - Recognizing Handwriting Styles in a Historical Scanned Document Using
Unsupervised Fuzzy Clustering [0.0]
特異な手書きスタイルは、文字サイズ、ストローク幅、ループ、ダクト、スラットアングル、カーシブリグチュアなど、いくつかの要素のブレンドで異なってくることがある。
隠れマルコフモデル、サポートベクターマシン、半教師付きリカレントニューラルネットワークによるラベル付きデータの研究は、中程度から高い成功を収めている。
本研究では, ファジィソフトクラスタリングと線形主成分分析を併用して, 歴史写本の手動変化を検知することに成功した。
論文 参考訳(メタデータ) (2022-10-30T09:07:51Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Controlling Hallucinations at Word Level in Data-to-Text Generation [10.59137381324694]
最先端のニューラルモデルには、アウトプットに誤解を招くステートメントが含まれている。
本稿では,単語レベルのラベルを利用して各トレーニングインスタンスの関連部分を学習できるマルチブランチデコーダを提案する。
我々のモデルは、生成したテキストの流布とコヒーレンスを維持しながら、幻覚を減らし制御することができる。
論文 参考訳(メタデータ) (2021-02-04T18:58:28Z) - Blind Face Restoration via Deep Multi-scale Component Dictionaries [75.02640809505277]
劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。
DFDNetは高品質な画像から知覚的に重要な顔成分のディープ辞書を生成する。
コンポーネントAdaINは、入力機能と辞書機能の間のスタイルの多様性を取り除くために利用される。
論文 参考訳(メタデータ) (2020-08-02T07:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。