論文の概要: A Benchmark and Dataset for Post-OCR text correction in Sanskrit
- arxiv url: http://arxiv.org/abs/2211.07980v1
- Date: Tue, 15 Nov 2022 08:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 14:24:57.332161
- Title: A Benchmark and Dataset for Post-OCR text correction in Sanskrit
- Title(参考訳): サンスクリットにおけるポストOCRテキスト修正のためのベンチマークとデータセット
- Authors: Ayush Maheshwari, Nikhil Singh, Amrith Krishna, Ganesh Ramakrishnan
- Abstract要約: サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
- 参考スコア(独自算出の注目度): 23.45279030301887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sanskrit is a classical language with about 30 million extant manuscripts fit
for digitisation, available in written, printed or scannedimage forms. However,
it is still considered to be a low-resource language when it comes to available
digital resources. In this work, we release a post-OCR text correction dataset
containing around 218,000 sentences, with 1.5 million words, from 30 different
books. Texts in Sanskrit are known to be diverse in terms of their linguistic
and stylistic usage since Sanskrit was the 'lingua franca' for discourse in the
Indian subcontinent for about 3 millennia. Keeping this in mind, we release a
multi-domain dataset, from areas as diverse as astronomy, medicine and
mathematics, with some of them as old as 18 centuries. Further, we release
multiple strong baselines as benchmarks for the task, based on pre-trained
Seq2Seq language models. We find that our best-performing model, consisting of
byte level tokenization in conjunction with phonetic encoding (Byt5+SLP1),
yields a 23% point increase over the OCR output in terms of word and character
error rates. Moreover, we perform extensive experiments in evaluating these
models on their performance and analyse common causes of mispredictions both at
the graphemic and lexical levels. Our code and dataset is publicly available at
https://github.com/ayushbits/pe-ocr-sanskrit.
- Abstract(参考訳): サンスクリット語は古典的な言語であり、約3000万の写本がデジタル化に適合しており、文字、印刷、スキャン済みの形で利用できる。
しかし、利用可能なデジタルリソースに関しては、まだ低リソース言語であると考えられている。
本研究では,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
サンスクリットのテクストは、サンスクリットがインド亜大陸で約3千年にわたって「リングア・フランカ」であったため、言語的・様式的な用法で多様であることが知られている。
これを念頭に置いて、天文学、医学、数学のような多様な領域から、複数のドメインのデータセットを公開します。
さらに、トレーニング済みのSeq2Seq言語モデルに基づいて、タスクのベンチマークとして複数の強力なベースラインをリリースする。
音声符号化(Byt5+SLP1)と併用したバイトレベルのトークン化(Byt5+SLP1)により,OCR出力に対して単語と文字の誤り率で23%のポイント増加が得られた。
さらに,これらのモデルの性能評価に関する広範な実験を行い,文法レベルと語彙レベルでの誤予測の共通原因を分析した。
私たちのコードとデータセットはhttps://github.com/ayushbits/pe-ocr-sanskritで公開されている。
関連論文リスト
- Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - IndicSTR12: A Dataset for Indic Scene Text Recognition [33.194567434881314]
本稿では、インドにおける最大かつ最も包括的な実データセットであるIndicSTR12を提案し、12の主要言語でのSTRパフォーマンスをベンチマークする。
提案されたデータセットのサイズと複雑さは、既存のラテン系同時代のデータセットに匹敵するものである。
データセットには、様々な自然のシーンから集められた27000以上のワードイメージが含まれており、各言語に1000以上のワードイメージがある。
論文 参考訳(メタデータ) (2024-03-12T18:14:48Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Sāmayik: A Benchmark and Dataset for English-Sanskrit Translation [30.315293326789828]
S=amayikは、現代の散文で書かれた53,000の英サンスクリット文からなるデータセットである。
S=amayikは、言語教材、テキスト教育教育、オンラインチュートリアルなど、さまざまな分野からキュレーションされている。
論文 参考訳(メタデータ) (2023-05-23T12:32:24Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - An empirical study of CTC based models for OCR of Indian languages [31.5002680968116]
Connectionist Temporal Classification (CTC) を用いた非セグメンテーション配列のモデル化は、セグメンテーションフリーなOCRにおいて最もよく用いられる手法である。
本稿では,CTCを用いたニューラルネットワーク出力のステップワイズ予測をUnicodeシーケンスに変換するニューラルネットワークモデルについて述べる。
インド語の単語と行認識のための、Mozhiと呼ばれる新しいパブリックデータセットも導入しました。
論文 参考訳(メタデータ) (2022-05-13T16:19:21Z) - Aksharantar: Open Indic-language Transliteration datasets and models for
the Next Billion Users [32.23606056944172]
Aksharantarは、モノリンガルコーパスとパラレルコーパスからのマイニングによって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
論文 参考訳(メタデータ) (2022-05-06T05:13:12Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。