論文の概要: EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge
- arxiv url: http://arxiv.org/abs/2310.10050v1
- Date: Mon, 16 Oct 2023 04:20:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:41:14.241438
- Title: EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge
- Title(参考訳): EfficientOCR: 世界知識を効率的にデジタル化する拡張可能なオープンソースパッケージ
- Authors: Tom Bryan, Jacob Carlson, Abhishek Arora, Melissa Dell
- Abstract要約: EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
- 参考スコア(独自算出の注目度): 1.8434042562191815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Billions of public domain documents remain trapped in hard copy or lack an
accurate digitization. Modern natural language processing methods cannot be
used to index, retrieve, and summarize their texts; conduct computational
textual analyses; or extract information for statistical analyses, and these
texts cannot be incorporated into language model training. Given the diversity
and sheer quantity of public domain texts, liberating them at scale requires
optical character recognition (OCR) that is accurate, extremely cheap to
deploy, and sample-efficient to customize to novel collections, languages, and
character sets. Existing OCR engines, largely designed for small-scale
commercial applications in high resource languages, often fall short of these
requirements. EffOCR (EfficientOCR), a novel open-source OCR package, meets
both the computational and sample efficiency requirements for liberating texts
at scale by abandoning the sequence-to-sequence architecture typically used for
OCR, which takes representations from a learned vision model as inputs to a
learned language model. Instead, EffOCR models OCR as a character or word-level
image retrieval problem. EffOCR is cheap and sample efficient to train, as the
model only needs to learn characters' visual appearance and not how they are
used in sequence to form language. Models in the EffOCR model zoo can be
deployed off-the-shelf with only a few lines of code. Importantly, EffOCR also
allows for easy, sample efficient customization with a simple model training
interface and minimal labeling requirements due to its sample efficiency. We
illustrate the utility of EffOCR by cheaply and accurately digitizing 20
million historical U.S. newspaper scans, evaluating zero-shot performance on
randomly selected documents from the U.S. National Archives, and accurately
digitizing Japanese documents for which all other OCR solutions failed.
- Abstract(参考訳): 数十億のパブリックドメイン文書がハードコピーに閉じ込められているか、正確なデジタル化が欠如している。
現代の自然言語処理法は、それらのテキストの索引付け、検索、要約、計算テキストの解析、統計解析のための情報抽出に使用できず、これらのテキストは言語モデルトレーニングに組み入れられない。
パブリックドメインのテキストの多様性と量を考えると、それらを大規模に解放するには、光学的文字認識(ocr)が必要であり、精度が高く、デプロイが極めて安く、新しいコレクション、言語、文字セットにカスタマイズするのにサンプル効率が良い。
既存のocrエンジンは、主に高リソース言語での小規模商用アプリケーション向けに設計されており、しばしばこれらの要件に満たない。
オープンソースのOCRパッケージであるEffOCR(EfficientOCR)は、OCRで一般的に使用されるシーケンス・ツー・シーケンスアーキテクチャを放棄することで、テキストを大規模に解放するための計算効率とサンプル効率の両方を満たす。
代わりに、EffOCRはOCRを文字または単語レベルの画像検索問題としてモデル化する。
effocrは安価で、トレーニングに効率的なサンプルであり、モデルは文字の視覚的な外観を学習するだけでよい。
EffOCRモデル動物園のモデルは、わずか数行のコードで出荷することができる。
重要な点として、EffOCRは単純なモデルトレーニングインターフェースとサンプル効率による最小限のラベリング要件により、簡単でサンプル効率のよいカスタマイズを可能にする。
米国国立公文書館からランダムに選択された文書のゼロショット性能を評価し、他のocrソリューションが失敗した日本語文書を正確にデジタル化することにより、effocrの有用性を示す。
関連論文リスト
- Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation [0.0]
本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。
我々は、英語のTrOCRエンコーダを言語固有のデコーダと統合し、この言語でモデルを訓練する。
英語のTrOCRをスペイン語で微調整すると、固定データセットサイズに対する言語固有のデコーダよりも優れた認識が得られる。
論文 参考訳(メタデータ) (2024-07-09T15:31:41Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Efficient OCR for Building a Diverse Digital History [1.8434042562191815]
本研究では,OCRを文字レベルの画像検索問題として,対照的に訓練された視覚を用いてモデル化する。
モデルは文字の視覚的特徴のみを学習するため、既存のアーキテクチャよりも効率が良く、既存のソリューションが失敗した場合の正確なOCRを可能にする。
重要なことに、このモデルは、デジタル歴史をよりドキュメンタリー歴史を代表するものにするコミュニティエンゲージメントのための新しい道を開く。
論文 参考訳(メタデータ) (2023-04-05T20:36:04Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文 参考訳(メタデータ) (2022-12-11T15:45:26Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z) - PP-OCR: A Practical Ultra Lightweight OCR System [8.740684949994664]
実用的超軽量OCRシステム(PP-OCR)を提案する。
PP-OCRの全体的なモデルサイズは、6622の漢字を認識するために3.5M、63の数字記号を認識するために2.8Mである。
論文 参考訳(メタデータ) (2020-09-21T14:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。