論文の概要: Robust PDF Document Conversion Using Recurrent Neural Networks
- arxiv url: http://arxiv.org/abs/2102.09395v1
- Date: Thu, 18 Feb 2021 14:39:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:23:29.188040
- Title: Robust PDF Document Conversion Using Recurrent Neural Networks
- Title(参考訳): リカレントニューラルネットワークを用いたロバストPDF文書変換
- Authors: Nikolaos Livathinos (1), Cesar Berrospi (1), Maksym Lysak (1), Viktor
Kuropiatnyk (1), Ahmed Nassar (1), Andre Carvalho (1), Michele Dolfi (1),
Christoph Auer (1), Kasper Dinkla (1), Peter Staar (1) ((1) IBM Research)
- Abstract要約: 本稿では,リカレントニューラルネットワークを用いたpdfの文書構造復元手法を提案する。
ニューラルネットワークへの入力としてPDF印刷コマンドのシーケンスをどのように使用できるかを示す。
17の異なる構造ラベルで97%の重み付き平均F1スコアを得るモデルを実装します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The number of published PDF documents has increased exponentially in recent
decades. There is a growing need to make their rich content discoverable to
information retrieval tools. In this paper, we present a novel approach to
document structure recovery in PDF using recurrent neural networks to process
the low-level PDF data representation directly, instead of relying on a visual
re-interpretation of the rendered PDF page, as has been proposed in previous
literature. We demonstrate how a sequence of PDF printing commands can be used
as input into a neural network and how the network can learn to classify each
printing command according to its structural function in the page. This
approach has three advantages: First, it can distinguish among more
fine-grained labels (typically 10-20 labels as opposed to 1-5 with visual
methods), which results in a more accurate and detailed document structure
resolution. Second, it can take into account the text flow across pages more
naturally compared to visual methods because it can concatenate the printing
commands of sequential pages. Last, our proposed method needs less memory and
it is computationally less expensive than visual methods. This allows us to
deploy such models in production environments at a much lower cost. Through
extensive architectural search in combination with advanced feature
engineering, we were able to implement a model that yields a weighted average
F1 score of 97% across 17 distinct structural labels. The best model we
achieved is currently served in production environments on our Corpus
Conversion Service (CCS), which was presented at KDD18 (arXiv:1806.02284). This
model enhances the capabilities of CCS significantly, as it eliminates the need
for human annotated label ground-truth for every unseen document layout. This
proved particularly useful when applied to a huge corpus of PDF articles
related to COVID-19.
- Abstract(参考訳): 近年,PDF 文書の発行件数は急増している。
豊富なコンテンツを情報検索ツールに発見できるようにする必要性が高まっています。
本稿では,従来の文献で提案されているように,レンダリングされたpdfページを視覚的に再解釈する代わりに,リカレントニューラルネットワークを用いて,低レベルのpdfデータ表現を直接処理する新しい手法を提案する。
本稿では、ニューラルネットワークへの入力としてpdf印刷コマンドのシーケンスをどのように使用できるか、ネットワークが各印刷コマンドをそのページの構造機能に応じて分類するかをデモする。
このアプローチには3つの利点がある: まず、よりきめ細かいラベル(典型的には視覚的手法の1-5よりも10-20のラベル)を区別し、より正確で詳細な文書構造解決をもたらす。
第2に、シーケンシャルなページの印刷コマンドを結合できるため、視覚的な方法に比べてページ間のテキストフローをより自然に考慮することができる。
最後に,提案手法はメモリを少なくし,視覚的手法よりも計算コストを低くする。
これにより、このようなモデルをはるかに低コストで本番環境にデプロイできます。
高度な機能エンジニアリングと組み合わせた広範なアーキテクチャ検索により、17の異なる構造ラベルで平均F1スコアが97%の重み付けされたモデルを実装することができました。
私たちが達成した最高のモデルは、現在KDD18(arXiv:1806.02284)で発表されたコーパス変換サービス(CCS)の運用環境で提供されます。
このモデルは、目に見えないすべてのドキュメントレイアウトに人間の注釈付きラベルグランドトラスの必要性を排除するため、CCSの機能を大幅に強化します。
これは、COVID-19に関連するPDF記事の膨大なコーパスに適用した場合、特に有用であることが判明した。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - GRAM: Global Reasoning for Multi-Page VQA [14.980413646626234]
本稿では,事前学習したシングルページモデルをマルチページ設定にシームレスに拡張するGRAMを提案する。
そのため、ローカルページレベルの理解にシングルページエンコーダを活用し、文書レベルの指定層と学習可能なトークンで拡張する。
復号化時に計算量を増やすため、任意の圧縮段階を導入する。
論文 参考訳(メタデータ) (2024-01-07T08:03:06Z) - CCpdf: Building a High Quality Corpus for Visually Rich Documents from
Web Crawl Data [2.7843134136364265]
本稿では,Common Crawl を用いて,インターネット全体から大規模で多言語なPDFファイルのコーパスを作成するための効率的なパイプラインを提案する。
また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。
論文 参考訳(メタデータ) (2023-04-28T16:12:18Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Document Domain Randomization for Deep Learning Document Layout
Extraction [37.97092983885967]
文書領域のランダム化(DDR)は,図式化された擬似紙ページのみにトレーニングされた畳み込みニューラルネットワーク(CNN)の転送に成功した最初の例である。
DDRは、興味のあるランダム化されたテキストと非テキストの内容をモデル化することで、擬似文書ページをレンダリングする。
高忠実度意味情報はセマンティッククラスをラベル付けする必要はないが、列車とテスト間のスタイルミスマッチはモデルの精度を低下させる可能性がある。
論文 参考訳(メタデータ) (2021-05-20T19:16:04Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。