論文の概要: READoc: A Unified Benchmark for Realistic Document Structured Extraction
- arxiv url: http://arxiv.org/abs/2409.05137v1
- Date: Sun, 8 Sep 2024 15:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:06:48.443588
- Title: READoc: A Unified Benchmark for Realistic Document Structured Extraction
- Title(参考訳): READoc: リアルなドキュメント構造化抽出のための統一ベンチマーク
- Authors: Zichao Li, Aizier Abulaiti, Yaojie Lu, Xuanang Chen, Jia Zheng, Hongyu Lin, Xianpei Han, Le Sun,
- Abstract要約: 本稿では,DSEを現実的なタスクとして定義するREADocという新しいベンチマークを紹介する。
READocデータセットは、arXivとGitHubの2,233の多種多様な実世界のドキュメントから派生したものだ。
さらに,最先端DSE手法の統一評価法を開発した。
- 参考スコア(独自算出の注目度): 44.44722729958791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Structured Extraction (DSE) aims to extract structured content from raw documents. Despite the emergence of numerous DSE systems, their unified evaluation remains inadequate, significantly hindering the field's advancement. This problem is largely attributed to existing benchmark paradigms, which exhibit fragmented and localized characteristics. To address these limitations and offer a thorough evaluation of DSE systems, we introduce a novel benchmark named READoc, which defines DSE as a realistic task of converting unstructured PDFs into semantically rich Markdown. The READoc dataset is derived from 2,233 diverse and real-world documents from arXiv and GitHub. In addition, we develop a DSE Evaluation S$^3$uite comprising Standardization, Segmentation and Scoring modules, to conduct a unified evaluation of state-of-the-art DSE approaches. By evaluating a range of pipeline tools, expert visual models, and general VLMs, we identify the gap between current work and the unified, realistic DSE objective for the first time. We aspire that READoc will catalyze future research in DSE, fostering more comprehensive and practical solutions.
- Abstract(参考訳): 文書構造化抽出(DSE)は、生文書から構造化コンテンツを抽出することを目的としている。
多くのDSEシステムの出現にもかかわらず、それらの統合された評価は依然として不十分であり、この分野の進歩を著しく妨げている。
この問題は、断片化と局所化の特性を示す既存のベンチマークパラダイムに大きく起因している。
これらの制約に対処し、DSEシステムの徹底的な評価を行うために、DSEを非構造化PDFを意味的にリッチなMarkdownに変換する現実的なタスクとして定義するREADocという新しいベンチマークを導入する。
READocデータセットは、arXivとGitHubの2,233の多種多様な実世界のドキュメントから派生したものだ。
さらに, 標準化, セグメンテーション, Scoringモジュールを含むDSE評価S$^3$uiteを開発し, 最先端DSE手法の統一評価を行う。
パイプラインツールや専門的なビジュアルモデル,一般的なVLMなどを評価することで,現在の作業と統合された現実的なDSE目標とのギャップを初めて認識する。
私たちは、READocがDSEにおける将来の研究を触媒し、より包括的で実用的なソリューションを育むことを期待しています。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis [7.952225508086861]
学術文献やファイナンスによる質問応答では、データはHTMLやPDF形式の生のテキストや表によく見られる。
2,965の現実世界の文書と29,590のエキスパート注釈付きQ&AペアからなるベンチマークスイートであるUnstructured Document Analysis (UDA)を導入する。
論文 参考訳(メタデータ) (2024-06-21T14:29:39Z) - LayeredDoc: Domain Adaptive Document Restoration with a Layer Separation Approach [9.643486775455841]
本稿では,文書画像復元システムにおける領域適応性を向上するテキスト・グラフィック・レイヤ分離手法を提案する。
本稿では,2つのレイヤ情報を利用するLayeredDocを提案する。第1のターゲットは粗粒のグラフィックコンポーネントであり,第2のレイヤは機械印刷されたテキストコンテンツを洗練する。
本研究では,本研究のために開発された新しい実世界のデータセットであるLayeredDocDBを用いて,定性的かつ定量的にアプローチを評価する。
論文 参考訳(メタデータ) (2024-06-12T19:41:01Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - Few-Shot Document-Level Relation Extraction [0.0]
文書レベルの関係抽出ベンチマーク(FSDLRE)を提案する。
文書レベルのコーパスは、特にNOTA(non-of-a-a-a-a-be-a-a-Be-Be-Be-(NOTA)分布に関して、よりリアリズムをもたらすと論じる。
我々は、最先端の文レベル手法であるMNAVを文書レベルに適応させ、ドメイン適応を改善するためにさらに開発する。
論文 参考訳(メタデータ) (2022-05-04T13:16:19Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z) - Document-Level Definition Detection in Scholarly Documents: Existing
Models, Error Analyses, and Future Directions [40.64025648548128]
我々は,構文的特徴,トランスフォーマーエンコーダ,フィルタを利用した新たな定義検出システムHEDDExを開発し,標準文レベルのベンチマークで評価する。
HEDDEx は文レベルと文書レベルの両方のタスクにおいて、それぞれ 12.7 F1 点と 14.4 F1 点を上回っている。
論文 参考訳(メタデータ) (2020-10-11T01:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。