論文の概要: Improving Automatic Text Recognition with Language Models in the PyLaia Open-Source Library
- arxiv url: http://arxiv.org/abs/2404.18722v1
- Date: Mon, 29 Apr 2024 14:11:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:28:15.854328
- Title: Improving Automatic Text Recognition with Language Models in the PyLaia Open-Source Library
- Title(参考訳): PyLaiaオープンソースライブラリにおける言語モデルによるテキストの自動認識の改善
- Authors: Solène Tarride, Yoann Schneider, Marie Generali-Lince, Mélodie Boillet, Bastien Abadie, Christopher Kermorvant,
- Abstract要約: 本稿では,信頼度スコアの組み入れと復号時の統計的言語モデリングの統合に着目した。
我々の実装は、異なるレベルでPyLaiaとn-gramの言語モデルを簡単に組み合わせる方法を提供する。
我々はPyLaiaの性能を言語モデリングと非言語モデルの両方で12のデータセットで評価した。
- 参考スコア(独自算出の注目度): 3.3484434195495605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PyLaia is one of the most popular open-source software for Automatic Text Recognition (ATR), delivering strong performance in terms of speed and accuracy. In this paper, we outline our recent contributions to the PyLaia library, focusing on the incorporation of reliable confidence scores and the integration of statistical language modeling during decoding. Our implementation provides an easy way to combine PyLaia with n-grams language models at different levels. One of the highlights of this work is that language models are completely auto-tuned: they can be built and used easily without any expert knowledge, and without requiring any additional data. To demonstrate the significance of our contribution, we evaluate PyLaia's performance on twelve datasets, both with and without language modelling. The results show that decoding with small language models improves the Word Error Rate by 13% and the Character Error Rate by 12% in average. Additionally, we conduct an analysis of confidence scores and highlight the importance of calibration techniques. Our implementation is publicly available in the official PyLaia repository at https://gitlab.teklia.com/atr/pylaia, and twelve open-source models are released on Hugging Face.
- Abstract(参考訳): PyLaiaは、ATR(Automatic Text Recognition)のための最も人気のあるオープンソースソフトウェアの一つで、スピードと精度の点で強力なパフォーマンスを提供する。
本稿では,PyLaiaライブラリへの最近のコントリビューションについて概説し,信頼度スコアの導入と復号時の統計的言語モデリングの統合に着目した。
我々の実装は、異なるレベルでPyLaiaとn-gramの言語モデルを簡単に組み合わせる方法を提供する。
言語モデルは、専門家の知識を必要とせず、追加のデータも必要とせず、簡単に構築および使用することができる。
コントリビューションの重要性を示すため、言語モデリングと非言語モデルを用いて、12のデータセット上でPyLaiaの性能を評価する。
その結果,小言語モデルによる復号化はワード誤り率を13%,文字誤り率を12%向上させることがわかった。
さらに,信頼性スコアの分析を行い,校正手法の重要性を強調した。
私たちの実装は、https://gitlab.teklia.com/atr/pylaiaの公式PyLaiaリポジトリで公開されています。
関連論文リスト
- Comgra: A Tool for Analyzing and Debugging Neural Networks [35.89730807984949]
PyTorchで使用するオープンソースのpythonライブラリであるcomgraを紹介します。
Comgraはモデルの内部アクティベーションに関するデータを抽出し、GUIで整理する。
要約統計と個々のデータポイントの両方を示し、トレーニングの初期段階と後期を比較し、関心のある個々のサンプルに注目し、ネットワークを通しての勾配の流れを可視化する。
論文 参考訳(メタデータ) (2024-07-31T14:57:23Z) - Calibrating the Confidence of Large Language Models by Eliciting Fidelity [52.47397325111864]
RLHFのようなテクニックで最適化された大規模な言語モデルは、有用で無害な点において優れた整合性を実現している。
調整後、これらの言語モデルはしばしば過剰な自信を示し、表現された自信は正確さの度合いで正確に校正しない。
本稿では,言語モデルの信頼度を推定するプラグイン・アンド・プレイ手法を提案する。
論文 参考訳(メタデータ) (2024-04-03T11:36:12Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - Program Synthesis with Large Language Models [40.41120807053989]
我々はPythonにおけるプログラム合成のための大規模言語モデルを評価する。
合成性能はモデルサイズと対数的にスケールすることがわかった。
最高のモデルでさえ、特定の入力を与えられたプログラムの出力を予測できないことが分かりました。
論文 参考訳(メタデータ) (2021-08-16T03:57:30Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Text Normalization for Low-Resource Languages of Africa [1.5766133856827325]
本研究では,アフリカの低リソース言語群におけるテキスト正規化とデータセット品質の影響について検討する。
我々は、有限状態トランスデューサのためのPythonライブラリであるPyniniフレームワークで構築したテキスト正規化器と、アフリカ言語のための言語モデルのトレーニング実験について説明する。
論文 参考訳(メタデータ) (2021-03-29T18:00:26Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Deep Learning Models for Multilingual Hate Speech Detection [5.977278650516324]
本稿では、16の異なるソースから9言語で多言語ヘイトスピーチを大規模に分析する。
低リソース設定では、ロジスティック回帰を用いたLASER埋め込みのような単純なモデルが最善である。
ゼロショット分類の場合、イタリア語やポルトガル語のような言語は良い結果をもたらす。
論文 参考訳(メタデータ) (2020-04-14T13:14:27Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。