論文の概要: DavarOCR: A Toolbox for OCR and Multi-Modal Document Understanding
- arxiv url: http://arxiv.org/abs/2207.06695v1
- Date: Thu, 14 Jul 2022 06:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 13:31:40.891625
- Title: DavarOCR: A Toolbox for OCR and Multi-Modal Document Understanding
- Title(参考訳): DavarOCR: OCRとマルチモーダル文書理解のためのツールボックス
- Authors: Liang Qiao, Hui Jiang, Ying Chen, Can Li, Pengfei Li, Zaisheng Li,
Baorui Zou, Dashan Guo, Yingda Xu, Yunlu Xu, Zhanzhan Cheng and Yi Niu
- Abstract要約: DavarOCRは、OCRとドキュメント理解タスクのためのオープンソースのツールボックスである。
DavarOCRは19の高度なアルゴリズムを実装し、9つのタスク形式をカバーする。
- 参考スコア(独自算出の注目度): 27.021253000700288
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents DavarOCR, an open-source toolbox for OCR and document
understanding tasks. DavarOCR currently implements 19 advanced algorithms,
covering 9 different task forms. DavarOCR provides detailed usage instructions
and the trained models for each algorithm. Compared with the previous
opensource OCR toolbox, DavarOCR has relatively more complete support for the
sub-tasks of the cutting-edge technology of document understanding. In order to
promote the development and application of OCR technology in academia and
industry, we pay more attention to the use of modules that different
sub-domains of technology can share. DavarOCR is publicly released at
https://github.com/hikopensource/Davar-Lab-OCR.
- Abstract(参考訳): 本稿では,OCRと文書理解タスクのためのオープンソースツールボックスであるDavarOCRについて述べる。
DavarOCRは現在19の高度なアルゴリズムを実装しており、9つの異なるタスク形式をカバーしている。
DavarOCRは、各アルゴリズムの詳細な使用指示とトレーニングされたモデルを提供する。
以前のオープンソースOCRツールボックスと比較すると、DavarOCRはドキュメント理解の最先端技術のサブタスクを比較的完全にサポートしています。
学術・産業におけるOCR技術の開発と適用を促進するため,我々は,異なるサブドメインのテクノロジーが共有できるモジュールの利用により多くの注意を払っている。
DavarOCRはhttps://github.com/hikopensource/Davar-Lab-OCRで公開されている。
関連論文リスト
- General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model [22.834085739828815]
我々は,OCR-2.0の到来を促進するために,汎用OCR理論と優れたモデル,すなわちGOTを提案する。
GOTは580Mパラメータを持ち、高圧縮エンコーダと長文デコーダからなる統一的でエレガントでエンドツーエンドのモデルである。
OCR-2.0モデルとして、GOTは様々なOCRタスクで上記の「キャラクタ」を処理できる。
論文 参考訳(メタデータ) (2024-09-03T08:41:31Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Text-Conditioned Resampler For Long Form Video Understanding [94.81955667020867]
トレーニング済みのビジュアルエンコーダと大言語モデル(LLM)を用いたテキストコンディショニングビデオリサンプラー(TCR)モジュールを提案する。
TCRは、最適化された実装なしで、平易な注意で一度に100フレーム以上を処理できる。
論文 参考訳(メタデータ) (2023-12-19T06:42:47Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - OCR-IDL: OCR Annotations for Industry Document Library Dataset [8.905920197601171]
商用OCRエンジンを用いたIDL文書のOCRアノテーションを公開する。
寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
論文 参考訳(メタデータ) (2022-02-25T21:30:48Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - MMOCR: A Comprehensive Toolbox for Text Detection, Recognition and
Understanding [70.16678926775475]
MMOCRは、テキストの検出と認識のためのオープンソースのツールボックスである。
それは14の最先端のアルゴリズムを実装しており、これは私たちが現在知っているすべてのオープンソースのOCRプロジェクトよりも多い。
論文 参考訳(メタデータ) (2021-08-14T14:10:23Z) - ICDAR2019 Competition on Scanned Receipt OCR and Information Extraction [70.71240097723745]
SROIEの技術的課題、重要性、および巨大な商業的可能性を認識し、私たちはSROIEでICDAR 2019コンペティションを開催しました。
競争のために1000全体のスキャンされたレシート画像とアノテーションを備えた新しいデータセットが作成されます。
本報告では,モチベーション,競合データセット,タスク定義,評価プロトコル,提出統計,提案手法の性能,結果分析について述べる。
論文 参考訳(メタデータ) (2021-03-18T12:33:41Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。