論文の概要: Workshop on Document Intelligence Understanding
- arxiv url: http://arxiv.org/abs/2307.16369v1
- Date: Mon, 31 Jul 2023 02:14:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:11:27.248353
- Title: Workshop on Document Intelligence Understanding
- Title(参考訳): ドキュメントインテリジェンス理解ワークショップ
- Authors: Soyeon Caren Han, Yihao Ding, Siwen Luo, Josiah Poon, HeeGuen Yoon,
Zhe Huang, Paul Duuring, Eun Jung Holden
- Abstract要約: このワークショップは、ドキュメントインテリジェンス分野の研究者と業界開発者を集結させることを目的としている。
また、最近導入されたドキュメントレベルのVQAデータセットであるPDFVQAに関するデータ課題もリリースしました。
- 参考スコア(独自算出の注目度): 3.2929609168290543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document understanding and information extraction include different tasks to
understand a document and extract valuable information automatically. Recently,
there has been a rising demand for developing document understanding among
different domains, including business, law, and medicine, to boost the
efficiency of work that is associated with a large number of documents. This
workshop aims to bring together researchers and industry developers in the
field of document intelligence and understanding diverse document types to
boost automatic document processing and understanding techniques. We also
released a data challenge on the recently introduced document-level VQA
dataset, PDFVQA. The PDFVQA challenge examines the structural and contextual
understandings of proposed models on the natural full document level of
multiple consecutive document pages by including questions with a sequence of
answers extracted from multi-pages of the full document. This task helps to
boost the document understanding step from the single-page level to the full
document level understanding.
- Abstract(参考訳): 文書理解と情報抽出は、文書を理解し、価値ある情報を自動抽出するタスクを含む。
近年,多くの文書に関連付けられた作業の効率化を図るため,業務・法律・医学などさまざまな分野における文書理解の発達が求められている。
このワークショップは、ドキュメントインテリジェンス分野の研究者や業界開発者を集結させ、さまざまなドキュメントタイプを理解して、自動文書処理と理解技術を強化することを目的としている。
また、最近導入されたドキュメントレベルのVQAデータセットであるPDFVQAに関するデータ課題もリリースしました。
PDFVQAの課題は、複数の連続する文書ページの自然な全文書レベルで提案されたモデルの構造的および文脈的理解を、全文書の複数ページから抽出された一連の回答を含む質問を含めることである。
このタスクは、ドキュメント理解のステップをシングルページレベルからドキュメントレベルの完全な理解へと拡大するのに役立つ。
関連論文リスト
- DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z) - FATURA: A Multi-Layout Invoice Image Dataset for Document Analysis and
Understanding [8.855033708082832]
本稿では,文書分析と理解の分野における研究者のための重要な資料であるFATURAを紹介する。
FATURAは、マルチアノテーションによる請求書の文書イメージを特徴とする、非常に多様なデータセットである。
各種文書分析・理解タスクの総合的なベンチマークを行い,多様な訓練・評価シナリオ下で実験を行う。
論文 参考訳(メタデータ) (2023-11-20T15:51:14Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - DLUE: Benchmarking Document Language Understanding [32.550855843975484]
文書理解能力を包括的に評価する方法については、確固たるコンセンサスはない。
本稿では,文書分類,文書構造解析,文書情報抽出,文書書き起こしの4つの代表的能力について要約する。
新しい評価フレームワークでは、新しいタスクスイートである textbfDLUE の textbfDocument Language Understanding Evaluation を提案する。
論文 参考訳(メタデータ) (2023-05-16T15:16:24Z) - PDFVQA: A New Dataset for Real-World VQA on PDF Documents [2.105395241374678]
文書ベースのビジュアル質問回答は、自然言語質問の条件下での文書イメージの文書理解を検証する。
我々のPDF-VQAデータセットは、単一のドキュメントページ上の制限を、複数のページの全ドキュメントに対して質問する新しいスケールに拡張する。
論文 参考訳(メタデータ) (2023-04-13T12:28:14Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - A Survey of Deep Learning Approaches for OCR and Document Understanding [68.65995739708525]
我々は、英語で書かれた文書の文書理解のための様々な手法をレビューする。
文献に現れる方法論を集約し,この領域を探索する研究者の跳躍点として機能させる。
論文 参考訳(メタデータ) (2020-11-27T03:05:59Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。