論文の概要: Tamizhi-Net OCR: Creating A Quality Large Scale Tamil-Sinhala-English
Parallel Corpus Using Deep Learning Based Printed Character Recognition (PCR)
- arxiv url: http://arxiv.org/abs/2109.05952v1
- Date: Mon, 13 Sep 2021 13:26:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 22:16:16.634205
- Title: Tamizhi-Net OCR: Creating A Quality Large Scale Tamil-Sinhala-English
Parallel Corpus Using Deep Learning Based Printed Character Recognition (PCR)
- Title(参考訳): Tamizhi-Net OCR:Deep Learning Based Printed Character Recognition (PCR)を用いた高品質なタミルシンハラ英語パラレルコーパスの作成
- Authors: Charangan Vasantharajan and Uthayasanker Thayasivam
- Abstract要約: 低リソース言語のほとんどは、実質的なモノリンガルコーパスを作成するために必要なリソースを持っていない。
これらの言語は政府の手続きでしばしば見られるが、主にレガシーフォントを含むポータブル文書フォーマット(PDF)の形式である。
これらの文書からテキストを抽出してモノリンガルコーパスを作成することは、レガシーフォントの使用とプリンタフレンドリーなエンコーディングのために困難である。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the low resource languages do not have the necessary resources to
create even a substantial monolingual corpus. These languages may often be
found in government proceedings but mostly in the form of Portable Document
Formats (PDFs) that contains legacy fonts. Extracting text from these documents
to create a monolingual corpus is challenging due to legacy font usage and
printer-friendly encoding which are not optimized for text extraction.
Therefore, we propose a simple, automatic, and novel idea that can scale for
Tamil, Sinhala, and English languages and many documents. For this purpose, we
enhanced the performance of Tesseract 4.1.1 by employing LSTM-based training on
many legacy fonts to recognize printed characters in the above languages.
Especially, our model detects code-mix text, numbers, and special characters
from the printed document. It is shown that this approach can boost the
character-level accuracy of Tesseract 4.1.1 from 85.5 to 98.2 for Tamil (+12.9%
relative change) and 91.8 to 94.8 for Sinhala (+3.26% relative change) on a
dataset that is considered as challenging by its authors.
- Abstract(参考訳): 低リソース言語の多くは、実質的な単言語コーパスを作成するために必要なリソースを持っていない。
これらの言語は政府の手続きでしばしば見られるが、主にレガシーフォントを含むポータブル文書フォーマット(PDF)の形式である。
これらの文書からテキストを抽出して単言語コーパスを作成することは、レガシーフォントの使用と、テキスト抽出に最適化されていないプリンタフレンドリなエンコーディングのために困難である。
そこで本研究では,タミル語,シンハラ語,英語および多くの文書をスケール可能な,シンプルで自動的で斬新なアイデアを提案する。
そこで我々は,従来のフォントをLSTMで学習し,印刷文字を認識することで,Tesseract 4.1.1の性能向上を実現した。
特に,本モデルでは,印刷文書からコードミックステキスト,数字,特殊文字を検出する。
このアプローチは、テッセラクト4.1.1の文字レベルの精度を、タミルでは85.5から98.2に、シンハラでは91.8から94.8に向上させることが示されている(+3.26%)。
関連論文リスト
- Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Making Old Kurdish Publications Processable by Augmenting Available Optical Character Recognition Engines [1.174020933567308]
クルド人図書館には、クルディスタンに印刷装置が持ち込まれた初期の時代に印刷された多くの歴史出版物がある。
現在の光学文字認識(OCR)システムでは、多くの問題があるため、歴史的文書からテキストを抽出できない。
本研究では,GoogleによるオープンソースのOCRフレームワークであるTesseractバージョン5.0を採用し,様々な言語用テキストの抽出に利用した。
論文 参考訳(メタデータ) (2024-04-09T08:08:03Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with
Unsupervised Text Pretraining [65.30528567491984]
本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TS法を提案する。
テキストのみのデータを使用することで、低リソース言語向けのTSシステムの開発が可能になる。
評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。
論文 参考訳(メタデータ) (2023-01-30T00:53:50Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - TaTa: A Multilingual Table-to-Text Dataset for African Languages [32.348630887289524]
アフリカ言語におけるテーブル・トゥ・テキスト(TaTa)は、アフリカ言語に焦点を当てた最初の大規模多言語テーブル・トゥ・テキストデータセットである。
TaTaには、アフリカの4つの言語(Hausa、Igbo、Swahili、Yorub'a)とゼロショットテスト言語(ロシア語)を含む9つの言語で8,700の例が含まれている。
論文 参考訳(メタデータ) (2022-10-31T21:05:42Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Transfer Learning for Scene Text Recognition in Indian Languages [27.609596088151644]
本研究では、英語から2つの共通言語へのディープシーンテキスト認識ネットワークのすべての層に対するトランスファー学習の能力について検討する。
インド語の単純な合成データセットへの英語モデルの移行は現実的ではないことを示す。
我々は,IIIT-ILSTおよびBanglaデータセットからHindi,Telugu,Marayalamデータセットのシーンテキスト認識のための新しいベンチマークを,MLT-17から設定した。
論文 参考訳(メタデータ) (2022-01-10T06:14:49Z) - Large Scale Font Independent Urdu Text Recognition System [1.5229257192293197]
フォントの異なる画像やビデオに印刷されたUrduのテキストを確実に認識できる自動化システムは存在しない。
我々は,256フォントの大規模データセットであるQaidaと,完全なUrdu辞書を開発した。
我々はまた、84.2%の精度でウルドゥー論理を認識できる畳み込みニューラルネットワーク(CNN)に基づく分類モデルを開発した。
論文 参考訳(メタデータ) (2020-05-14T06:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。