論文の概要: OCR Language Models with Custom Vocabularies
- arxiv url: http://arxiv.org/abs/2308.09671v1
- Date: Fri, 18 Aug 2023 16:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:29:17.575572
- Title: OCR Language Models with Custom Vocabularies
- Title(参考訳): カスタム語彙を用いたOCR言語モデル
- Authors: Peter Garst, Reeve Ingle, and Yasuhisa Fujii
- Abstract要約: 本稿では,OCRシステムにおける汎用言語モデルに対して,実行時にドメイン固有の単語ベース言語モデルを効率的に生成し,アタッチするアルゴリズムを提案する。
また,CTCビームサーチデコーダを改良し,将来的な語彙の完成を前提として仮説を競合状態に保たせるようにした。
- 参考スコア(独自算出の注目度): 5.608846358903994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models are useful adjuncts to optical models for producing accurate
optical character recognition (OCR) results. One factor which limits the power
of language models in this context is the existence of many specialized domains
with language statistics very different from those implied by a general
language model - think of checks, medical prescriptions, and many other
specialized document classes. This paper introduces an algorithm for
efficiently generating and attaching a domain specific word based language
model at run time to a general language model in an OCR system. In order to
best use this model the paper also introduces a modified CTC beam search
decoder which effectively allows hypotheses to remain in contention based on
possible future completion of vocabulary words. The result is a substantial
reduction in word error rate in recognizing material from specialized domains.
- Abstract(参考訳): 言語モデルは、正確な光学的文字認識(OCR)結果を生成するための光学モデルに有用な随伴である。
この文脈で言語モデルのパワーを制限する要因の1つは、言語統計を持つ多くの専門分野の存在が、一般的な言語モデルによって暗示されるものとは大きく異なることである。
本稿では,ocrシステムの汎用言語モデルに対して,実行時にドメイン固有語ベース言語モデルを効率的に生成・アタッチするアルゴリズムを提案する。
このモデルを最大限に活用するために、本論文では、語彙単語の将来的な完成可能性に基づいて、仮説を効果的に議論し続けることを可能にする改良されたctcビーム探索デコーダも紹介している。
その結果、専門領域からの素材認識において、単語誤り率が大幅に低下する。
関連論文リスト
- Few shot clinical entity recognition in three languages: Masked language
models outperform LLM prompting [2.3357645240384874]
我々は,英語,フランス語,スペイン語で,ドメイン内(クリニカル)8個とアウトドメイン金標準コーパス6個を用いて,名前付きエンティティ認識を評価した。
100文に注釈付きデータの量を制限することで、数ショットのセットアップを作成します。
以上の結果から,より大型のプロンプトベースモデルでは,臨床領域外における名前付き実体認識のF値の競合が期待できる傾向にあるが,このレベルが臨床領域に及ばないことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-20T08:20:49Z) - Multilingual acoustic word embeddings for zero-resource languages [1.5229257192293204]
音響単語埋め込み (AWE) - 可変重み付き音声セグメントの固定次元表現。
この研究は、ゼロリソース言語上の既存のAWEモデルを上回る、新しいニューラルネットワークを導入している。
AWEは、スワヒリ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用される。
論文 参考訳(メタデータ) (2024-01-19T08:02:37Z) - Multilingual Generative Language Models for Zero-Shot Cross-Lingual
Event Argument Extraction [80.61458287741131]
ゼロショット言語間イベント引数抽出(EAE)における多言語事前学習型生成言語モデルの活用について検討する。
EAEを言語生成タスクとして定式化することにより、イベント構造を効果的にエンコードし、引数間の依存関係をキャプチャする。
提案するモデルでは,多言語事前学習型生成言語モデルを用いて,入力文から抽出した引数で言語に依存しないテンプレートを補う文を生成する。
論文 参考訳(メタデータ) (2022-03-15T23:00:32Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Reranking Machine Translation Hypotheses with Structured and Web-based
Language Models [11.363601836199331]
N-best Rescoringには2つの構造化言語モデルが適用される。
これらの言語モデルの組み合わせにより、BLEUのスコアはブラインドテストセットで完全に1.6%まで上昇する。
論文 参考訳(メタデータ) (2021-04-25T22:09:03Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。