論文の概要: DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting
- arxiv url: http://arxiv.org/abs/2602.15958v1
- Date: Tue, 17 Feb 2026 19:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.412598
- Title: DocSplit: A Comprehensive Benchmark Dataset and Evaluation Approach for Document Packet Recognition and Splitting
- Title(参考訳): DocSplit: ドキュメントパッケージ認識と分割のための総合ベンチマークデータセットと評価アプローチ
- Authors: Md Mofijul Islam, Md Sirajus Salekin, Nivedha Balakrishnan, Vincil C. Bishop, Niharika Jain, Spencer Romo, Bob Strahan, Boyi Xie, Diego A. Socolinsky,
- Abstract要約: 実世界のアプリケーションにおける文書理解には、複数の文書を縫合した異種多ページの文書パケットを処理する必要があることが多い。
本稿では,最初の包括的なベンチマークデータセットであるDocSplitと,大規模言語モデルの文書パケット分割機能を評価するための新たな評価指標を提案する。
このベンチマークは、注文外ページ、インターリーブされたドキュメント、明確な区切りのないドキュメントなど、現実世界の課題に対処する。
- 参考スコア(独自算出の注目度): 3.657237256134889
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Document understanding in real-world applications often requires processing heterogeneous, multi-page document packets containing multiple documents stitched together. Despite recent advances in visual document understanding, the fundamental task of document packet splitting, which involves separating a document packet into individual units, remains largely unaddressed. We present the first comprehensive benchmark dataset, DocSplit, along with novel evaluation metrics for assessing the document packet splitting capabilities of large language models. DocSplit comprises five datasets of varying complexity, covering diverse document types, layouts, and multimodal settings. We formalize the DocSplit task, which requires models to identify document boundaries, classify document types, and maintain correct page ordering within a document packet. The benchmark addresses real-world challenges, including out-of-order pages, interleaved documents, and documents lacking clear demarcations. We conduct extensive experiments evaluating multimodal LLMs on our datasets, revealing significant performance gaps in current models' ability to handle complex document splitting tasks. The DocSplit benchmark datasets and proposed novel evaluation metrics provide a systematic framework for advancing document understanding capabilities essential for legal, financial, healthcare, and other document-intensive domains. We release the datasets to facilitate future research in document packet processing.
- Abstract(参考訳): 実世界のアプリケーションにおける文書理解には、複数の文書を縫合した異種多ページの文書パケットを処理する必要があることが多い。
近年のビジュアル文書理解の進歩にもかかわらず、文書パケット分割の基本課題は、文書パケットを個々の単位に分割することである。
本稿では,最初の包括的なベンチマークデータセットであるDocSplitと,大規模言語モデルの文書パケット分割機能を評価するための新たな評価指標を提案する。
DocSplitは、さまざまなドキュメントタイプ、レイアウト、マルチモーダル設定を含む、さまざまな複雑さの5つのデータセットで構成されている。
我々はDocSplitタスクを形式化し、ドキュメント境界を識別し、文書タイプを分類し、文書パケット内で正しいページ順序を維持するモデルを必要とする。
このベンチマークは、注文外ページ、インターリーブされたドキュメント、明確な区切りのないドキュメントなど、現実世界の課題に対処する。
我々は、データセット上でマルチモーダルLCMを評価する広範囲な実験を行い、複雑な文書分割タスクを処理できる現在のモデルの性能格差を明らかにした。
DocSplitベンチマークデータセットと提案された新しい評価指標は、法的、財務的、医療、その他のドキュメント集約ドメインに不可欠な文書理解能力を進化させるための体系的なフレームワークを提供する。
文書パケット処理の今後の研究を促進するために,データセットをリリースする。
関連論文リスト
- Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - Unsupervised Document and Template Clustering using Multimodal Embeddings [0.0]
本研究では,凍結したマルチモーダルエンコーダと古典的クラスタリングアルゴリズムを用いて,文書のカテゴリとテンプレートレベルの両方における教師なしクラスタリングについて検討する。
テキストのみ,レイアウト対応,ビジョン対応,ビジョン対応の8つのエンコーダを$k$-Means,DBSCAN,HDBSCAN + $k$-NN,BIRCHで評価し,クリーンな合成請求書を5つのコーパスに分けた。
論文 参考訳(メタデータ) (2025-06-13T14:07:44Z) - OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。
パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文 参考訳(メタデータ) (2024-12-10T16:05:56Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。