論文の概要: NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence
- arxiv url: http://arxiv.org/abs/2603.00122v1
- Date: Mon, 23 Feb 2026 06:11:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.034945
- Title: NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence
- Title(参考訳): NovaLAD: 生成AIとデータインテリジェンスのための高速でCPU最適化されたドキュメント抽出パイプライン
- Authors: Aman Ulla,
- Abstract要約: NovaLADは、構造化されていない文書を構造化されたテキストとレイアウト対応の表現に変換する包括的な文書解析システムである。
要素検出とレイアウト検出という2つの同時YOLOオブジェクト検出モデルとルールベースのグループ化とオプションの視覚言語拡張を統合している。
本稿では,GPUを必要とせずに,データの抽出方法,アーキテクチャの動作方法,NovaLADの正確性と使用性を両立させる方法について説明する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document extraction is an important step before retrieval-augmented generation (RAG), knowledge bases, and downstream generative AI can work. It turns unstructured documents like PDFs and scans into structured text and layout-aware representations. We introduce NovaLAD, a comprehensive document parsing system that integrates two concurrent YOLO object detection models - element detection and layout detection - with rule-based grouping and optional vision-language enhancement. When a page image is sent in, the first thing that happens is that it goes through both models at the same time. The element model finds semantic content like the title, header, text, table, image, and so on, and the layout model finds structural regions like layout_box, column_group, multi_column, row_group, and so on. A key design decision is to first send an image or figure through an image classifier (ViT) that decides whether it is relevant or not. Only useful images are then submitted to the Vision LLM for title, summary, and structured information, which cuts down on noise and costs. NovaLAD is built for speed: it works on CPU, employs parallel execution for detection, classification, OCR, and conversion, and generates several forms, including structured JSON, Markdown, RAG-ready texts, and knowledge graphs. We test on the DP-Bench benchmark (upstage/dp-bench) and get 96.49% TEDS and 98.51% NID, which is better than both commercial and open-source parsers. This paper explains how to extract data, how the architecture works, how data flows, and how to make NovaLAD both accurate and usable without needing a GPU.
- Abstract(参考訳): 文書抽出は、検索強化世代(RAG)、知識ベース、下流生成AIが機能する前に重要なステップである。
PDFやスキャンのような構造化されていないドキュメントを構造化テキストやレイアウト対応の表現に変換する。
我々は,2つのYOLOオブジェクト検出モデル – 要素検出とレイアウト検出 – とルールベースのグループ化とオプションの視覚言語拡張 – を統合した包括的文書解析システムであるNovaLADを紹介する。
ページイメージが送信されると、最初に起きるのは、両方のモデルを同時に通過することです。
要素モデルはタイトル、ヘッダ、テキスト、テーブル、イメージなどのセマンティックなコンテンツを見つけ、レイアウトモデルはレイアウトボックス、カラムグループ、マルチカラム、行グループなどの構造的領域を見つけます。
重要な設計上の決定は、まずイメージまたはフィギュアを画像分類器(ViT)を通して送信し、それが関連しているか否かを決定することである。
有効な画像だけがタイトル、要約、構造化情報のためにVision LLMに提出され、ノイズやコストが削減される。
NovaLADはCPUで動作し、検出、分類、OCR、変換に並列実行を使用し、構造化JSON、Markdown、RAG対応テキスト、ナレッジグラフなど、いくつかのフォームを生成する。
我々はDP-Benchベンチマーク(upstage/dp-bench)をテストし、96.49%のTEDSと98.51%のNIDを得た。
本稿では、データ抽出方法、アーキテクチャの動作方法、データフローの方法、GPUを必要とせずにNovaLADを正確かつ使いやすいものにする方法について説明する。
関連論文リスト
- UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文 参考訳(メタデータ) (2025-12-24T10:35:21Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - GraphKD: Exploring Knowledge Distillation Towards Document Object
Detection with Structured Graph Creation [14.511401955827875]
ドキュメントにおけるオブジェクト検出は、構造的要素の識別プロセスを自動化するための重要なステップである。
文書画像中の文書オブジェクトを正しく識別し,ローカライズするための,グラフベースの知識蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-17T23:08:32Z) - DUBLIN -- Document Understanding By Language-Image Network [37.42637168606938]
3つの新しい目的を用いて,Webページ上で事前学習を行うDUBLINを提案する。
DUBLIN は WebSRC データセット上で 77.75 の EM と 84.25 の F1 を達成した最初のピクセルベースモデルであることを示す。
また、RVL-CDIP文書分類における競合性能も達成する。
論文 参考訳(メタデータ) (2023-05-23T16:34:09Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - VTLayout: Fusion of Visual and Text Features for Document Layout
Analysis [5.836306027133707]
文書レイアウト分析(DLA)は、歴史文書や科学文書の豊富な情報を大規模に収集する可能性がある。
本稿では,文書の深い視覚的,浅い視覚的,テキスト的特徴を融合させ,カテゴリブロックを識別するVTモデルを提案する。
VTの識別能力はPubLayNetデータセットに基づく最も高度なDLA法よりも優れており、F1スコアは0.9599である。
論文 参考訳(メタデータ) (2021-08-12T17:12:11Z) - VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-13T12:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。