論文の概要: OCR Post Correction for Endangered Language Texts
- arxiv url: http://arxiv.org/abs/2011.05402v1
- Date: Tue, 10 Nov 2020 21:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:21:41.581743
- Title: OCR Post Correction for Endangered Language Texts
- Title(参考訳): 絶滅危惧言語テキストに対するOCRポスト補正
- Authors: Shruti Rijhwani, Antonios Anastasopoulos, Graham Neubig
- Abstract要約: 我々は、3つの危惧言語でスキャンされた書籍の書き起こしのベンチマークデータセットを作成する。
本稿では,汎用OCRツールがデータ・スカース・セッティングに対して堅牢でないかを体系的に分析する。
我々は,このデータ・スカース・セッティングにおけるトレーニングを容易にするために,OCRポスト補正法を開発した。
- 参考スコア(独自算出の注目度): 113.8242302688894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is little to no data available to build natural language processing
models for most endangered languages. However, textual data in these languages
often exists in formats that are not machine-readable, such as paper books and
scanned images. In this work, we address the task of extracting text from these
resources. We create a benchmark dataset of transcriptions for scanned books in
three critically endangered languages and present a systematic analysis of how
general-purpose OCR tools are not robust to the data-scarce setting of
endangered languages. We develop an OCR post-correction method tailored to ease
training in this data-scarce setting, reducing the recognition error rate by
34% on average across the three languages.
- Abstract(参考訳): ほとんどの絶滅危惧言語で自然言語処理モデルを構築するデータはほとんど、ほとんどありません。
しかし、これらの言語のテキストデータは、紙本やスキャンされた画像など、機械で読めない形式にしばしば存在する。
本研究では,これらの資源からテキストを抽出する作業に対処する。
3つの危惧言語におけるスキャンされた書籍の書き起こしのベンチマークデータセットを作成し、絶滅危惧言語のデータセット設定に対して汎用OCRツールがいかに堅牢でないかを体系的に分析する。
我々は,このデータスカース設定におけるトレーニングを容易にするため,OCRポストコレクション法を開発し,認識誤り率を3言語平均34%削減した。
関連論文リスト
- DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives [6.599829213637133]
インドネシアは言語的にも最も多様な国の一つである。
この言語的多様性にもかかわらず、インドネシア語は、自然言語処理の研究と技術において不足している。
インドネシアではこれまでデジタル言語リソースの構築に使われていなかった文書をデジタル化してデータセットを作成する方法を提案する。
論文 参考訳(メタデータ) (2024-11-14T10:00:33Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Noisy Parallel Data Alignment [36.578851892373365]
既存の単語レベルのアライメントモデルをノイズの多い設定で検討し、ノイズの多いデータに対してより堅牢にすることを目的としている。
複数の言語ペアでテストされたノイズシミュレーションと構造バイアス法により,最先端のニューラルベースアライメントモデルにおけるアライメントエラー率を59.6%に抑えることができた。
論文 参考訳(メタデータ) (2023-01-23T19:26:34Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。