論文の概要: Post-OCR Document Correction with large Ensembles of Character Sequence
Models
- arxiv url: http://arxiv.org/abs/2109.06264v1
- Date: Mon, 13 Sep 2021 19:05:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 06:40:43.865597
- Title: Post-OCR Document Correction with large Ensembles of Character Sequence
Models
- Title(参考訳): 文字列モデルの大規模なアンサンブルを用いた後OCR文書補正
- Authors: Juan Ramirez-Orta and Eduardo Xamena and Ana Maguitman and Evangelos
Milios and Axel J. Soto
- Abstract要約: 光学文字認識(OCR)システムですでに処理されている文書を補正する新しい手法を提案する。
本論文の主な貢献は,文字列を正確に処理する戦略の集合である。
我々は,ICDAR 2019コンペティションの9言語を対象に,OCR後のテキスト修正を行い,その中5言語で新たな最先端性能を実現する。
- 参考スコア(独自算出の注目度): 0.3359875577705537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a novel method based on character
sequence-to-sequence models to correct documents already processed with Optical
Character Recognition (OCR) systems. The main contribution of this paper is a
set of strategies to accurately process strings much longer than the ones used
to train the sequence model while being sample- and resource-efficient,
supported by thorough experimentation. The strategy with the best performance
involves splitting the input document in character n-grams and combining their
individual corrections into the final output using a voting scheme that is
equivalent to an ensemble of a large number of sequence models. We further
investigate how to weigh the contributions from each one of the members of this
ensemble. We test our method on nine languages of the ICDAR 2019 competition on
post-OCR text correction and achieve a new state-of-the-art performance in five
of them. Our code for post-OCR correction is shared at
https://github.com/jarobyte91/post_ocr_correction.
- Abstract(参考訳): 本稿では,光学文字認識(OCR)システムですでに処理されている文書を訂正するための文字列列列モデルに基づく新しい手法を提案する。
本論文の主な貢献は, サンプルと資源効率を両立させ, 徹底的な実験によって支援されたシーケンスモデルのトレーニングよりも, 文字列を正確に処理する戦略の集合である。
最高のパフォーマンスを持つ戦略は、入力文書を文字n-gramに分割し、多数のシーケンスモデルのアンサンブルに相当する投票方式を用いて、個々の修正を最終的な出力に組み合わせることである。
さらに、このアンサンブルのメンバーのそれぞれからの貢献度を測る方法について検討する。
我々は,ICDAR 2019コンペティションの9言語を対象に,OCR後のテキスト修正を行い,その中5言語で新たな最先端性能を実現する。
OCR修正後のコードはhttps://github.com/jarobyte91/post_ocr_correctionで共有されます。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - Seq2seq is All You Need for Coreference Resolution [26.551602768015986]
トレーニング済みのseq2seq変換器を微調整し、コア参照アノテーションを符号化したタグ付きシーケンスに入力文書をマッピングする。
我々のモデルは、データセットの配列に関する文献の中で最高のコア参照システムより優れているか、あるいは密に一致します。
論文 参考訳(メタデータ) (2023-10-20T19:17:22Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - CLaC at SemEval-2023 Task 2: Comparing Span-Prediction and
Sequence-Labeling approaches for NER [0.554780083433538]
本稿では,MultiCoNER 2タスクに対するCLaC提案を要約する。
NERの2つの一般的なアプローチ、すなわちSequence LabelingとSpan Predictionを比較した。
テストデータ上での最高のシーケンスラベリングシステムよりも,最高のSpan予測システムの方が若干パフォーマンスがよいことが分かりました。
論文 参考訳(メタデータ) (2023-05-05T20:49:40Z) - Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文 参考訳(メタデータ) (2022-12-11T15:45:26Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - COCO-LM: Correcting and Contrasting Text Sequences for Language Model
Pretraining [59.169836983883656]
COCO-LMは、チャレンジングなエラーとテキストシーケンスの変換によって言語モデルを事前学習する新しい自己監視学習フレームワークです。
COCO-LMは、オリジナルのテキストシーケンスでマスク&予測トークンに補助言語モデルを採用しています。
分析の結果,coco-lmのアドバンテージは,困難なトレーニング信号,よりコンテキスト化されたトークン表現,正規化されたシーケンス表現であることがわかった。
論文 参考訳(メタデータ) (2021-02-16T22:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。