論文の概要: DLUE: Benchmarking Document Language Understanding
- arxiv url: http://arxiv.org/abs/2305.09520v1
- Date: Tue, 16 May 2023 15:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 14:31:24.847028
- Title: DLUE: Benchmarking Document Language Understanding
- Title(参考訳): DLUE: ドキュメント言語理解のベンチマーク
- Authors: Ruoxi Xu, Hongyu Lin, Xinyan Guan, Xianpei Han, Yingfei Sun, Le Sun
- Abstract要約: 文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。
本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。
新しい評価フレームワークでは、新しいタスクスイートである textbfDLUE の textbfDocument Language Understanding Evaluation を提案する。
- 参考スコア(独自算出の注目度): 32.550855843975484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding documents is central to many real-world tasks but remains a
challenging topic. Unfortunately, there is no well-established consensus on how
to comprehensively evaluate document understanding abilities, which
significantly hinders the fair comparison and measuring the progress of the
field. To benchmark document understanding researches, this paper summarizes
four representative abilities, i.e., document classification, document
structural analysis, document information extraction, and document
transcription. Under the new evaluation framework, we propose \textbf{Document
Language Understanding Evaluation} -- \textbf{DLUE}, a new task suite which
covers a wide-range of tasks in various forms, domains and document genres. We
also systematically evaluate six well-established transformer models on DLUE,
and find that due to the lengthy content, complicated underlying structure and
dispersed knowledge, document understanding is still far from being solved, and
currently there is no neural architecture that dominates all tasks, raising
requirements for a universal document understanding architecture.
- Abstract(参考訳): ドキュメントを理解することは、多くの現実世界のタスクの中心であるが、依然として難しいトピックである。
残念ながら、文書理解能力の総合的な評価方法に関する明確なコンセンサスはなく、公正な比較やフィールドの進捗測定を著しく妨げている。
文書理解研究をベンチマークするために,文書分類,文書構造解析,文書情報抽出,文書転写という4つの代表的な能力について概説する。
新しい評価フレームワークでは、さまざまな形式、ドメイン、文書ジャンルの幅広いタスクをカバーする新しいタスクスイートである \textbf{document language understanding evaluation} -- \textbf{dlue} を提案する。
また,dlue上で確立された6つのトランスフォーマーモデルを体系的に評価し,長い内容,複雑な構造,分散した知識により,文書理解はまだ解決に至らず,現在,すべてのタスクを支配するニューラルネットワークは存在せず,普遍的な文書理解アーキテクチャの要件を提起している。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - Workshop on Document Intelligence Understanding [3.2929609168290543]
このワークショップは、ドキュメントインテリジェンス分野の研究者と業界開発者を集結させることを目的としている。
また、最近導入されたドキュメントレベルのVQAデータセットであるPDFVQAに関するデータ課題もリリースしました。
論文 参考訳(メタデータ) (2023-07-31T02:14:25Z) - A Study of Documentation for Software Architecture [7.011803832284996]
私たちは65人の参加者に、ソフトウェアアーキテクチャの理解に関する質問に答えるように頼みました。
アクティビティの適用と作成を必要とする質問に対する回答は、システムのソースコードの使用と統計的に大きく関連している。
本研究の結果は,建築文書の形式が重要であるという仮説と矛盾するものである。
論文 参考訳(メタデータ) (2023-05-26T22:14:53Z) - PDFVQA: A New Dataset for Real-World VQA on PDF Documents [2.105395241374678]
文書ベースのビジュアル質問回答は、自然言語質問の条件下での文書イメージの文書理解を検証する。
我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。
論文 参考訳(メタデータ) (2023-04-13T12:28:14Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - The Law of Large Documents: Understanding the Structure of Legal
Contracts Using Visual Cues [0.7425558351422133]
コンピュータビジョン手法を用いて得られた視覚的手がかりが文書理解タスクの精度に与える影響を計測する。
構造メタデータに基づく文書のセグメンテーション手法は,4つの文書理解タスクにおいて,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-16T21:21:50Z) - Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文 参考訳(メタデータ) (2021-06-09T02:12:18Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。