論文の概要: Cleansing Jewel: A Neural Spelling Correction Model Built On Google
OCR-ed Tibetan Manuscripts
- arxiv url: http://arxiv.org/abs/2304.03427v1
- Date: Fri, 7 Apr 2023 00:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:10:17.134124
- Title: Cleansing Jewel: A Neural Spelling Correction Model Built On Google
OCR-ed Tibetan Manuscripts
- Title(参考訳): cleansing jewel: google ocr-ed tibetan manuscripts上に構築されたニューラルスペル修正モデル
- Authors: Queenie Luo, Yung-Sung Chuang
- Abstract要約: 我々は,Google OCR-ed Tibetan Manuscripts 上に構築したニューラルスペル補正モデルを用いて,OCR-ed noisy出力の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
- 参考スコア(独自算出の注目度): 4.594159253008448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scholars in the humanities rely heavily on ancient manuscripts to study
history, religion, and socio-political structures in the past. Many efforts
have been devoted to digitizing these precious manuscripts using OCR
technology, but most manuscripts were blemished over the centuries so that an
Optical Character Recognition (OCR) program cannot be expected to capture faded
graphs and stains on pages. This work presents a neural spelling correction
model built on Google OCR-ed Tibetan Manuscripts to auto-correct OCR-ed noisy
output. This paper is divided into four sections: dataset, model architecture,
training and analysis. First, we feature-engineered our raw Tibetan etext
corpus into two sets of structured data frames -- a set of paired toy data and
a set of paired real data. Then, we implemented a Confidence Score mechanism
into the Transformer architecture to perform spelling correction tasks.
According to the Loss and Character Error Rate, our Transformer + Confidence
score mechanism architecture proves to be superior to Transformer, LSTM-2-LSTM
and GRU-2-GRU architectures. Finally, to examine the robustness of our model,
we analyzed erroneous tokens, visualized Attention and Self-Attention heatmaps
in our model.
- Abstract(参考訳): 人文科学の学者は、歴史、宗教、社会政治構造を研究するために古代の写本に大きく依存している。
OCR技術を用いたこれらの貴重な写本のデジタル化に多くの努力が注がれているが、ほとんどの写本は、何世紀にもわたって、OCR(Optical Character Recognition)プログラムが、失明したグラフやページの汚れを捉えることを期待できないように、ブレンドされた。
本研究は,Google OCRによるチベット文字を用いたニューラルスペル補正モデルを用いて,OCRによる雑音の自動補正を行う。
本稿では、データセット、モデルアーキテクチャ、トレーニング、分析の4つのセクションに分けられる。
まず、チベットの原文のeテキストコーパスを2つの構造化データフレーム(ペアの玩具データとペアの実際のデータ)にフィーチャーエンジニアリングしました。
そこで我々は,信頼スコア機構をTransformerアーキテクチャに実装し,スペル訂正タスクを実行する。
Loss and Character Error Rateによると、Transformer + Confidence score mechanismアーキテクチャはTransformer, LSTM-2-LSTM, GRU-2-GRUアーキテクチャよりも優れていることが証明されている。
最後に, モデルのロバスト性を検討するために, 誤ったトークン, 注意の可視化, 自己注意のヒートマップを分析した。
関連論文リスト
- CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - PEaCE: A Chemistry-Oriented Dataset for Optical Character Recognition on Scientific Documents [4.191058827240492]
合成と実世界の両方の記録を含むPEaCE(Printed English and Chemical Equations)データセットを提示する。
本研究では,トランスモデルを用いたOCRモデルの有効性を評価する。
論文 参考訳(メタデータ) (2024-03-23T05:20:36Z) - Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。
このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。
本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文 参考訳(メタデータ) (2023-11-27T15:01:26Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。