論文の概要: Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration
- arxiv url: http://arxiv.org/abs/2207.06717v1
- Date: Thu, 14 Jul 2022 07:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 14:14:26.613482
- Title: Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration
- Title(参考訳): 文書群対話のためのレイアウト認識情報抽出:データセット,方法,デモ
- Authors: Zhenyu Zhang, Bowen Yu, Haiyang Yu, Tingwen Liu, Cheng Fu, Jingyang
Li, Chengguang Tang, Jian Sun, Yongbin Li
- Abstract要約: 視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
- 参考スコア(独自算出の注目度): 75.47708732473586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building document-grounded dialogue systems have received growing interest as
documents convey a wealth of human knowledge and commonly exist in enterprises.
Wherein, how to comprehend and retrieve information from documents is a
challenging research problem. Previous work ignores the visual property of
documents and treats them as plain text, resulting in incomplete modality. In
this paper, we propose a Layout-aware document-level Information Extraction
dataset, LIE, to facilitate the study of extracting both structural and
semantic knowledge from visually rich documents (VRDs), so as to generate
accurate responses in dialogue systems. LIE contains 62k annotations of three
extraction tasks from 4,061 pages in product and official documents, becoming
the largest VRD-based information extraction dataset to the best of our
knowledge. We also develop benchmark methods that extend the token-based
language model to consider layout features like humans. Empirical results show
that layout is critical for VRD-based extraction, and system demonstration also
verifies that the extracted knowledge can help locate the answers that users
care about.
- Abstract(参考訳): 文書が豊富な人的知識を伝達し、企業で一般的に見られるように、文書化された対話システムの構築が関心を集めている。
一方、文書から情報を理解して取得する方法は、難しい研究課題である。
以前の作品は文書の視覚的な性質を無視して平易なテキストとして扱い、不完全なモダリティをもたらす。
本稿では,視覚的にリッチな文書(vrd)から構造的・意味的知識を抽出し,対話システムにおいて正確な応答を生成するためのレイアウト認識型文書レベル情報抽出データセットであるlieを提案する。
LIEには4,061ページの製品と公式文書から抽出された3つのタスクの62kアノテーションが含まれており、私たちの知る限り最大のVRDベースの情報抽出データセットとなっている。
また,人間のようなレイアウト機能を考慮したトークンベースの言語モデルを拡張するベンチマーク手法を開発した。
経験的な結果は、レイアウトがvrdベースの抽出に不可欠であることを示し、システムデモは、抽出された知識がユーザが関心を持つ回答を見つけるのに役立つことを検証している。
関連論文リスト
- DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Coarse-to-Fine Knowledge Selection for Document Grounded Dialogs [11.63334863772068]
マルチドキュメント基盤対話システム(DGDS)は,文書の集合から支援された知識を見出すことで,ユーザの要求に答える。
本稿では,粒度の粗い知識検索と粒度の細かい知識抽出の両方を統一されたフレームワークで最適化することを目的としたRe3Gを提案する。
論文 参考訳(メタデータ) (2023-02-23T08:28:29Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z) - Natural language processing for word sense disambiguation and
information extraction [0.0]
Thesaurus を用いた Word Sense Disambiguation の新しいアプローチを提案する。
ファジィ論理に基づく文書検索手法について解説し,その応用例を示した。
この戦略は、明らかな推論のデンプスター・シェーファー理論に基づく新しい戦略の提示で締めくくられる。
論文 参考訳(メタデータ) (2020-04-05T17:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。