Fugu-MT 論文翻訳(概要): OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

論文の概要: OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

arxiv url: http://arxiv.org/abs/2412.07626v1
Date: Tue, 10 Dec 2024 16:05:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.422411
Title: OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations
Title（参考訳）: OmniDocBench: 包括的なアノテーションによる多言語PDFドキュメントのベンチマーク
Authors: Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He,
Abstract要約: 我々はOmniDocBenchを紹介した。OmniDocBenchは自動文書コンテンツ抽出のための新しいベンチマークである。私たちのベンチマークには、厳密にキュレートされ、注釈付けされた高品質な評価データセットが含まれています。既存のモジュール・パイプラインとマルチモーダル・エンド・ツー・エンド・メソッドの徹底的な比較分析を行う。
参考スコア（独自算出の注目度）: 22.336858733121158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Document content extraction is crucial in computer vision, especially for meeting the high-quality data needs of large language models (LLMs) and retrieval-augmented generation (RAG) technologies. However, current document parsing methods suffer from significant limitations in terms of diversity and comprehensive evaluation. To address these challenges, we introduce OmniDocBench, a novel multi-source benchmark designed to advance automated document content extraction. OmniDocBench includes a meticulously curated and annotated high-quality evaluation dataset comprising nine diverse document types, such as academic papers, textbooks, slides, among others. Our benchmark provides a flexible and comprehensive evaluation framework with 19 layout category labels and 14 attribute labels, enabling multi-level assessments across entire datasets, individual modules, or specific data types. Using OmniDocBench, we perform an exhaustive comparative analysis of existing modular pipelines and multimodal end-to-end methods, highlighting their limitations in handling document diversity and ensuring fair evaluation. OmniDocBench establishes a robust, diverse, and fair evaluation standard for the document content extraction field, offering crucial insights for future advancements and fostering the development of document parsing technologies. The codes and dataset is available in https://github.com/opendatalab/OmniDocBench.
Abstract（参考訳）: 文書コンテンツ抽出はコンピュータビジョンにおいて重要であり、特に大規模言語モデル(LLM)と検索強化世代(RAG)技術の高品質なデータ要求を満たすために重要である。しかし,現行の文書解析手法は,多様性や包括的評価の面で重大な限界に悩まされている。これらの課題に対処するため,我々は,文書コンテンツの自動抽出を高速化する新しいマルチソースベンチマークであるOmniDocBenchを紹介した。 OmniDocBenchには、学術論文、教科書、スライドなど、9つの異なるドキュメントタイプからなる、微妙にキュレートされ、注釈付けされた高品質な評価データセットが含まれている。私たちのベンチマークでは、19のレイアウトカテゴリラベルと14の属性ラベルを備えた、フレキシブルで包括的な評価フレームワークを提供しています。 OmniDocBenchを用いて、既存のモジュールパイプラインとマルチモーダルなエンドツーエンドメソッドの徹底的な比較分析を行い、文書の多様性の扱いと公正な評価の限界を強調します。 OmniDocBenchは、ドキュメントコンテンツ抽出分野の堅牢で多様で公正な評価基準を確立し、将来の進歩に対する重要な洞察を提供し、文書解析技術の発展を促進する。コードとデータセットはhttps://github.com/opendatalab/OmniDocBench.orgで公開されている。

関連論文リスト

WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? [64.62909376834601]
本稿では,自然環境における文書理解の評価に特化して設計されたWildDocについて紹介する。 WildDoc上での最先端MLLMの評価は、従来のベンチマークと比べて性能が大幅に低下し、モデルの頑健さが不十分であることを示す。
論文参考訳（メタデータ） (2025-05-16T09:09:46Z)
VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents [30.012487475552575]
本稿では,新たなRAGフレームワークであるVDocRAGを導入し,様々な文書やモダリティを統一された画像形式で直接理解する。また、OpenDocVQAは、オープンドメイン文書の視覚的質問応答データセットを統合化した最初のコレクションである。
論文参考訳（メタデータ） (2025-04-14T01:50:33Z)
M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。 M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文参考訳（メタデータ） (2025-03-27T07:28:32Z)
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-02-06T17:07:22Z)
BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks [55.61185100263898]
我々は,30タスクにわたる750万のマルチモーダルドキュメントからなる高品質なオープンアクセスデータセットであるBigDocs-7.5Mを紹介した。 BigDocs-Benchも導入しています。実験の結果,BigDocs-Bench を用いたトレーニングでは,クローズドソース GPT-4o よりも平均性能が 25.8% 向上していることがわかった。
論文参考訳（メタデータ） (2024-12-05T21:41:20Z)
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文参考訳（メタデータ） (2024-10-25T16:00:55Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文参考訳（メタデータ） (2024-08-27T03:31:24Z)
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文参考訳（メタデータ） (2024-06-17T15:13:52Z)
Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文参考訳（メタデータ） (2024-06-17T06:27:35Z)
Beyond Document Page Classification: Design, Datasets, and Challenges [32.94494070330065]
本稿では,文書分類ベンチマークを現実のアプリケーションに近づける必要性を強調した。我々は、パブリックなマルチページ文書分類データセットの欠如を特定し、アプリケーションシナリオにおける異なる分類タスクを形式化し、効率的なマルチページ文書表現をターゲットとする価値を動機づける。
論文参考訳（メタデータ） (2023-08-24T16:16:47Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。 IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文参考訳（メタデータ） (2020-12-15T10:19:18Z)
DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文参考訳（メタデータ） (2020-06-01T16:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。