論文の概要: DISCO: Document Intelligence Suite for COmparative Evaluation
- arxiv url: http://arxiv.org/abs/2603.23511v1
- Date: Wed, 04 Mar 2026 14:47:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.994005
- Title: DISCO: Document Intelligence Suite for COmparative Evaluation
- Title(参考訳): DISCO: 共同評価のためのドキュメントインテリジェンススイート
- Authors: Kenza Benkirane, Dan Goldwater, Martin Asenov, Aneiss Ghodsi,
- Abstract要約: ドキュメントインテリジェンスには、正確なテキスト抽出と、文書コンテンツに対する信頼性の高い推論が必要である。
光文字認識 (OCR) パイプラインと視覚言語モデル (VLM) を個別に評価し, 多様な文書タイプにまたがる解析と質問応答について検討した。
- 参考スコア(独自算出の注目度): 1.4425299138308667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document intelligence requires accurate text extraction and reliable reasoning over document content. We introduce \textbf{DISCO}, a \emph{Document Intelligence Suite for COmparative Evaluation}, that evaluates optical character recognition (OCR) pipelines and vision-language models (VLMs) separately on parsing and question answering across diverse document types, including handwritten text, multilingual scripts, medical forms, infographics, and multi-page documents. Our evaluation shows that performance varies substantially across tasks and document characteristics, underscoring the need for complexity-aware approach selection. OCR pipelines are generally more reliable for handwriting and for long or multi-page documents, where explicit text grounding supports text-heavy reasoning, while VLMs perform better on multilingual text and visually rich layouts. Task-aware prompting yields mixed effects, improving performance on some document types while degrading it on others. These findings provide empirical guidance for selecting document processing strategies based on document structure and reasoning demands.
- Abstract(参考訳): 文書インテリジェンスには、正確なテキスト抽出と、文書の内容に対する信頼できる推論が必要である。
光文字認識(OCR)パイプラインと視覚言語モデル(VLM)を別々に評価し,手書きテキスト,多言語スクリプト,医療書式,インフォグラフィック,多ページ文書など,多種多様な文書タイプを対象とした解析と質問応答を行う。
評価の結果,タスクや文書の特徴によって性能が著しく変化していることが示され,複雑性を考慮したアプローチ選択の必要性が強調された。
OCRパイプラインは一般的に手書きや長いページや複数ページのドキュメントに対して信頼性が高く、明示的なテキストグラウンドはテキスト重み推論をサポートし、VLMは多言語テキストと視覚的にリッチなレイアウトでより優れた性能を発揮する。
タスク認識のプロンプトは、複数のエフェクトを発生させ、いくつかのドキュメントタイプのパフォーマンスを改善し、それを他のドキュメントに分解する。
これらの知見は、文書構造と推論要求に基づいて文書処理戦略を選択するための実証的なガイダンスを提供する。
関連論文リスト
- Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。
画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。
このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T17:07:22Z) - MMDocIR: Benchmarking Multimodal Retrieval for Long Documents [44.02536756069517]
この研究は、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含むMMDocIRという新しいベンチマークを導入する。
MMDocIRベンチマークは、専門家によって注釈付けされた1,685の質問と、ブートストラップ付きラベル付き173,843の質問を含む、豊富なデータセットで構成されている。
論文 参考訳(メタデータ) (2025-01-15T14:30:13Z) - OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。
パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文 参考訳(メタデータ) (2024-12-10T16:05:56Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Focus Anywhere for Fine-grained Multi-page Document Understanding [24.76897786595502]
本稿では,LVLMを単ページ/複数ページの文書に注目する上で,効果的パイプライン,ハイブリッドデータ,チューニング戦略であるFoxを提案する。
我々は、複数の視覚語彙を用いて、インターリーブされた文書ページの視覚的ハイブリッド知識を抽出する。
我々は、複数の視覚語彙と文書内図形理解の完全な反応を達成するために、複数の語彙間の視覚データを前景として描画する。
論文 参考訳(メタデータ) (2024-05-23T08:15:49Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。