論文の概要: MinerU: An Open-Source Solution for Precise Document Content Extraction
- arxiv url: http://arxiv.org/abs/2409.18839v1
- Date: Fri, 27 Sep 2024 15:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 08:58:26.815482
- Title: MinerU: An Open-Source Solution for Precise Document Content Extraction
- Title(参考訳): MinerU: 正確な文書コンテンツ抽出のためのオープンソースソリューション
- Authors: Bin Wang, Chao Xu, Xiaomeng Zhao, Linke Ouyang, Fan Wu, Zhiyuan Zhao, Rui Xu, Kaiwen Liu, Yuan Qu, Fukai Shang, Bo Zhang, Liqun Wei, Zhihao Sui, Wei Li, Botian Shi, Yu Qiao, Dahua Lin, Conghui He,
- Abstract要約: MinerUは、高精度な文書コンテンツ抽出のためのオープンソースのソリューションである。
我々は、MinerUが、様々なドキュメントタイプで一貫してハイパフォーマンスを実現していることを示す。
- 参考スコア(独自算出の注目度): 63.00490552013759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document content analysis has been a crucial research area in computer vision. Despite significant advancements in methods such as OCR, layout detection, and formula recognition, existing open-source solutions struggle to consistently deliver high-quality content extraction due to the diversity in document types and content. To address these challenges, we present MinerU, an open-source solution for high-precision document content extraction. MinerU leverages the sophisticated PDF-Extract-Kit models to extract content from diverse documents effectively and employs finely-tuned preprocessing and postprocessing rules to ensure the accuracy of the final results. Experimental results demonstrate that MinerU consistently achieves high performance across various document types, significantly enhancing the quality and consistency of content extraction. The MinerU open-source project is available at https://github.com/opendatalab/MinerU.
- Abstract(参考訳): 文書コンテンツ分析はコンピュータビジョンにおいて重要な研究領域である。
OCR、レイアウト検出、公式認識などの手法が大幅に進歩しているにもかかわらず、既存のオープンソースソリューションは、文書の種類や内容の多様性のために、高品質なコンテンツ抽出を一貫して提供するのに苦労している。
これらの課題に対処するため,我々は,高精度な文書コンテンツ抽出のためのオープンソースソリューションMinerUを提案する。
MinerUは、洗練されたPDF-Extract-Kitモデルを利用して、多様なドキュメントからコンテンツを効果的に抽出し、最終的な結果の正確性を保証するために、微調整された事前処理と後処理ルールを採用する。
実験の結果,MinerUは文書の種類によって高い性能を実現し,コンテンツ抽出の品質と一貫性を著しく向上させることがわかった。
MinerUオープンソースプロジェクトはhttps://github.com/opendatalab/MinerUで公開されている。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - DocParser: End-to-end OCR-free Information Extraction from Visually Rich
Documents [0.0]
OCRフリーエンド・ツー・エンド情報抽出モデルDocrimi
最近のOCRフリーエンド・ツー・エンド情報抽出モデルDocrimi
論文 参考訳(メタデータ) (2023-04-24T22:48:29Z) - ERNIE-mmLayout: Multi-grained MultiModal Transformer for Document
Understanding [31.227481709446746]
既存のアプローチは主に単語や文書画像などのきめ細かい要素に焦点を当てており、粗い要素から学ぶことは困難である。
本稿では,高密度情報と一貫したセマンティクスを含む粗粒状要素に,より重要度を付加する。
提案手法は,細粒度要素に基づくマルチモーダル変換器の性能向上と,パラメータの少ない性能向上を実現する。
論文 参考訳(メタデータ) (2022-09-18T13:46:56Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - MMOCR: A Comprehensive Toolbox for Text Detection, Recognition and
Understanding [70.16678926775475]
MMOCRは、テキストの検出と認識のためのオープンソースのツールボックスである。
それは14の最先端のアルゴリズムを実装しており、これは私たちが現在知っているすべてのオープンソースのOCRプロジェクトよりも多い。
論文 参考訳(メタデータ) (2021-08-14T14:10:23Z) - Knowledge-guided Open Attribute Value Extraction with Reinforcement
Learning [23.125544502927482]
オープン属性値抽出のための知識誘導強化学習(RL)フレームワークを提案する。
我々は,抽出した回答を逐次比較し,抽出精度を向上させるために,深層Qネットワークを訓練した。
その結果,本手法はベースラインを16.5~27.8%上回ることがわかった。
論文 参考訳(メタデータ) (2020-10-19T03:28:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。