論文の概要: OCR-IDL: OCR Annotations for Industry Document Library Dataset
- arxiv url: http://arxiv.org/abs/2202.12985v1
- Date: Fri, 25 Feb 2022 21:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 11:18:51.294844
- Title: OCR-IDL: OCR Annotations for Industry Document Library Dataset
- Title(参考訳): OCR-IDL: 業界文書ライブラリデータセットのためのOCRアノテーション
- Authors: Ali Furkan Biten, Rub\`en Tito, Lluis Gomez, Ernest Valveny,
Dimosthenis Karatzas
- Abstract要約: 商用OCRエンジンを用いたIDL文書のOCRアノテーションを公開する。
寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
- 参考スコア(独自算出の注目度): 8.905920197601171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretraining has proven successful in Document Intelligence tasks where deluge
of documents are used to pretrain the models only later to be finetuned on
downstream tasks. One of the problems of the pretraining approaches is the
inconsistent usage of pretraining data with different OCR engines leading to
incomparable results between models. In other words, it is not obvious whether
the performance gain is coming from diverse usage of amount of data and
distinct OCR engines or from the proposed models. To remedy the problem, we
make public the OCR annotations for IDL documents using commercial OCR engine
given their superior performance over open source OCR models. The contributed
dataset (OCR-IDL) has an estimated monetary value over 20K US$. It is our hope
that OCR-IDL can be a starting point for future works on Document Intelligence.
All of our data and its collection process with the annotations can be found in
https://github.com/furkanbiten/idl_data.
- Abstract(参考訳): 事前トレーニングはドキュメントインテリジェンスタスクで成功し、ドキュメントの不足が後になって、下流タスクで微調整されるようにモデルの事前トレーニングに使用される。
事前学習アプローチの問題点の1つは、異なるOCRエンジンによる事前学習データの一貫性のない使用が、モデル間の相容れない結果をもたらすことである。
言い換えれば、データ量と異なるocrエンジンの多様な使用から、あるいは提案されたモデルからパフォーマンスの向上がもたらされるかどうかは明らかではない。
この問題を解決するために,商用OCRエンジンを用いたIDL文書に対するOCRアノテーションを,オープンソースOCRモデルよりも優れた性能で公開する。
寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
OCR-IDLがドキュメントインテリジェンスに関する今後の研究の出発点になることを願っています。
私たちのデータとそのアノテーションによる収集プロセスはすべて、https://github.com/furkanbiten/idl_dataにあります。
関連論文リスト
- Reference-Based Post-OCR Processing with LLM for Diacritic Languages [0.0]
コンテンツ中心の電子書籍を参照ベースとして活用し、不完全なOCR生成テキストを訂正する手法を提案する。
この技術は、ダイアクリティカル言語のための高精度な擬似ページ・ツー・ページラベルを生成する。
パイプラインは、古いドキュメントから様々な種類のノイズを排除し、欠落した文字、単語、乱れたシーケンスといった問題に対処する。
論文 参考訳(メタデータ) (2024-10-17T08:05:02Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - DocParser: End-to-end OCR-free Information Extraction from Visually Rich
Documents [0.0]
OCRフリーエンド・ツー・エンド情報抽出モデルDocrimi
最近のOCRフリーエンド・ツー・エンド情報抽出モデルDocrimi
論文 参考訳(メタデータ) (2023-04-24T22:48:29Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。