論文の概要: ParseBench: A Document Parsing Benchmark for AI Agents
- arxiv url: http://arxiv.org/abs/2604.08538v1
- Date: Thu, 09 Apr 2026 17:59:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:06.075348
- Title: ParseBench: A Document Parsing Benchmark for AI Agents
- Title(参考訳): ParseBench:AIエージェントのベンチマークを解析するドキュメント
- Authors: Boyang Zhang, Sebastián G. Acosta, Preston Carlson, Sacha Bron, Pierre-Loïc Doulcet, Simon Suo,
- Abstract要約: Parseの出力は、自律的な決定に必要な構造と意味を保存する必要がある。
LlamaParse AgenticはAgenicoverall%で最高スコアを達成している。
- 参考スコア(独自算出の注目度): 4.393262655199666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are changing the requirements for document parsing. What matters is \emph{semantic correctness}: parsed output must preserve the structure and meaning needed for autonomous decisions, including correct table structure, precise chart data, semantically meaningful formatting, and visual grounding. Existing benchmarks do not fully capture this setting for enterprise automation, relying on narrow document distributions and text-similarity metrics that miss agent-critical failures. We introduce \textbf{ParseBench}, a benchmark of ${\sim}2{,}000$ human-verified pages from enterprise documents spanning insurance, finance, and government, organized around five capability dimensions: tables, charts, content faithfulness, semantic formatting, and visual grounding. Across 14 methods spanning vision-language models, specialized document parsers, and LlamaParse, the benchmark reveals a fragmented capability landscape: no method is consistently strong across all five dimensions. LlamaParse Agentic achieves the highest overall score at \agenticoverall\%, and the benchmark highlights the remaining capability gaps across current systems. Dataset and evaluation code are available on \href{https://huggingface.co/datasets/llamaindex/ParseBench}{HuggingFace} and \href{https://github.com/run-llama/ParseBench}{GitHub}.
- Abstract(参考訳): AIエージェントはドキュメント解析の要件を変更している。
解析された出力は、正しいテーブル構造、正確なチャートデータ、意味論的意味のあるフォーマット、視覚的な接地を含む、自律的な決定に必要な構造と意味を保存する必要がある。
既存のベンチマークでは、エージェントクリティカルな障害を見逃すような、狭いドキュメントの配布とテキスト類似度メトリクスに頼って、この設定を企業自動化のために完全に捉えていない。
私たちは、保険、金融、政府にまたがるエンタープライズ文書から、${\sim}2{,}000$の人間認証ページのベンチマークである \textbf{ParseBench} を紹介します。
ビジョン言語モデル、特殊なドキュメントパーサ、LlamaParseにまたがる14のメソッドにまたがって、このベンチマークは断片化された機能環境を明らかにしている。
LlamaParse Agenticは \agenticoverall\%で最高スコアを獲得し、ベンチマークでは現在のシステム間での残りの機能ギャップを強調している。
データセットと評価コードは \href{https://huggingface.co/datasets/llamaindex/ParseBench}{HuggingFace} と \href{https://github.com/run-llama/ParseBench}{GitHub} で利用可能である。
関連論文リスト
- Multimodal OCR: Parse Anything from Documents [72.69545534962234]
dots.mocrは、チャート、ダイアグラム、テーブル、アイコンなどのビジュアル要素を第一級解析ターゲットとして扱う。
テキストとグラフィックの両方を構造化出力として再構築し、より忠実なドキュメント再構築を可能にする。
不均一なドキュメント要素に対するエンドツーエンドのトレーニングをサポートする。
論文 参考訳(メタデータ) (2026-03-13T14:42:21Z) - $G^2$-Reader: Dual Evolving Graphs for Multimodal Document QA [53.491241153213565]
G2$-Readerはマルチモーダルな質問応答のためのデュアルグラフシステムである。
Qwen3-VL-32B-Instructによる$G2$-Readerの平均精度は66.21%に達し、強力なベースラインとスタンドアローンのGPT-5(53.08%)を上回った。
5つのマルチモーダルドメインにわたるVisDoMBenchでは、Qwen3-VL-32B-Instructを使った$G2$-Readerが平均精度66.21%に達し、強力なベースラインとスタンドアロンのGPT-5(53.08%)を上回っている。
論文 参考訳(メタデータ) (2026-01-29T17:52:54Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - From Surface to Semantics: Semantic Structure Parsing for Table-Centric Document Analysis [9.526986293067576]
DOTABLERはテーブル中心のセマンティックドキュメント解析フレームワークである。
包括的テーブルアンカレッド意味解析と意味論的関連テーブルの正確な抽出を提供する。
実世界のPDFから1000以上のテーブルを持つ4000ページ近くで評価された。
論文 参考訳(メタデータ) (2025-08-14T03:29:51Z) - OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations [22.336858733121158]
OmniDocBenchは9つのドキュメントソースにまたがる高品質なアノテーションを特徴とする新しいベンチマークです。
パイプラインベースの手法とエンドツーエンドのビジョン言語モデルの両方を徹底的に評価する。
論文 参考訳(メタデータ) (2024-12-10T16:05:56Z) - OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition [79.852642726105]
多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
論文 参考訳(メタデータ) (2024-03-28T03:51:14Z) - Magic Markup: Maintaining Document-External Markup with an LLM [1.0538052824177144]
修正プログラムをタグ付けし、リッチなアノテーションが進化するにつれて自動的にコードに従うことができるシステムを提案する。
我々のシステムはベンチマークで90%の精度を達成し、文書のタグを1タグあたり5秒の速さで並列に置き換えることができる。
改善の余地は残っていますが、アプリケーションのさらなる探索を正当化するのに十分なパフォーマンスが得られています。
論文 参考訳(メタデータ) (2024-03-06T05:40:31Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Test-Time Adaptation for Visual Document Understanding [34.79168501080629]
DocTTAは文書に対する新しいテスト時間適応手法である。
未ラベルのターゲット文書データを使用して、ソースフリーのドメイン適応を行う。
各種のVDUタスクに対して,既存の公開データセットを用いた新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2022-06-15T01:57:12Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。