論文の概要: Document Entity Retrieval with Massive and Noisy Pre-training
- arxiv url: http://arxiv.org/abs/2306.08937v1
- Date: Thu, 15 Jun 2023 08:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:53:17.138872
- Title: Document Entity Retrieval with Massive and Noisy Pre-training
- Title(参考訳): 重大かつノイズの多い事前学習による文書エンティティ検索
- Authors: Lijun Yu, Jin Miao, Xiaoyu Sun, Jiayi Chen, Alexander G. Hauptmann,
Hanjun Dai, Wei Wei
- Abstract要約: 本稿では,Webから大規模でノイズの多いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
本論文では,UniFormerという軽量なマルチモーダルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 97.32909203465503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visually-Rich Document Entity Retrieval (VDER) is a type of machine learning
task that aims at recovering text spans in the documents for each of the
entities in question. VDER has gained significant attention in recent years
thanks to its broad applications in enterprise AI. Unfortunately, as document
images often contain personally identifiable information (PII), publicly
available data have been scarce, not only because of privacy constraints but
also the costs of acquiring annotations. To make things worse, each dataset
would often define its own sets of entities, and the non-overlapping entity
spaces between datasets make it difficult to transfer knowledge between
documents. In this paper, we propose a method to collect massive-scale, noisy,
and weakly labeled data from the web to benefit the training of VDER models.
Such a method will generate a huge amount of document image data to compensate
for the lack of training data in many VDER settings. Moreover, the collected
dataset named DocuNet would not need to be dependent on specific document types
or entity sets, making it universally applicable to all VDER tasks. Empowered
by DocuNet, we present a lightweight multimodal architecture named UniFormer,
which can learn a unified representation from text, layout, and image crops
without needing extra visual pertaining. We experiment with our methods on
popular VDER models in various settings and show the improvements when this
massive dataset is incorporated with UniFormer on both classic entity retrieval
and few-shot learning settings.
- Abstract(参考訳): Visually-Rich Document Entity Retrieval (VDER)は、問題のエンティティごとにドキュメント内のテキストスパンを復元することを目的とした機械学習タスクの一種である。
VDERは近年、エンタープライズAIの幅広い応用により、大きな注目を集めている。
残念なことに、ドキュメントイメージには個人識別情報(pii)が含まれていることが多いため、プライバシーの制約だけでなく、アノテーション取得のコストも問題視されている。
さらに悪いことに、各データセットは、しばしば独自のエンティティセットを定義し、データセット間の重複しないエンティティ空間は、ドキュメント間の知識の転送を困難にしている。
本稿では,VDERモデルの学習に役立てるために,Webから大規模でノイズの多い,ラベルの弱いデータを収集する手法を提案する。
このような手法は、多くのVDER設定におけるトレーニングデータの欠如を補うために、大量の文書画像データを生成する。
さらに、DocuNetという名前の収集データセットは、特定のドキュメントタイプやエンティティセットに依存する必要はなく、すべてのVDERタスクに普遍的に適用できる。
DocuNetを駆使して、UniFormerという軽量なマルチモーダルアーキテクチャを提案し、テキスト、レイアウト、画像のクロップからの統一表現を、余分な視覚的関連を必要とせずに学習する。
提案手法は,様々な設定で一般的なVDERモデルを用いて実験し,UniFormerに組み込んだ大規模なデータセットを,古典的エンティティ検索と少数ショット学習の両方に組み込んだ場合の改善を示す。
関連論文リスト
- DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - IncDSI: Incrementally Updatable Document Retrieval [35.5697863674097]
IncDSIは、データセット全体のモデルをトレーニングすることなく、リアルタイムでドキュメントを追加する方法である。
我々は、制約付き最適化問題として文書の追加を定式化し、ネットワークパラメータの変更を最小限に抑える。
私たちのアプローチは、データセット全体のモデルの再トレーニングと競合しています。
論文 参考訳(メタデータ) (2023-07-19T07:20:30Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文 参考訳(メタデータ) (2021-06-09T02:12:18Z) - Identifying Documents In-Scope of a Collection from Web Archives [37.34941845795198]
本研究では,機械学習モデルと深層学習モデルの両方と,文書全体や文書の特定部分から抽出した"言葉の袋"(BoW)の特徴について検討する。
評価は3つの異なるWebアーカイブから作成した3つのデータセットに焦点をあてる。
実験の結果,文書の特定の部分のみに焦点をあてたBoW分類器は,全3つのデータセットで比較した手法よりも優れていた。
論文 参考訳(メタデータ) (2020-09-02T16:22:23Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。