論文の概要: On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval
- arxiv url: http://arxiv.org/abs/2311.00693v2
- Date: Sat, 9 Dec 2023 00:21:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 01:27:26.029329
- Title: On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval
- Title(参考訳): 視覚豊かな文書エンティティ検索のためのタスクパーソナライズされたマルチモーダルFew-shot学習について
- Authors: Jiayi Chen, Hanjun Dai, Bo Dai, Aidong Zhang, Wei Wei
- Abstract要約: VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 59.25292920967197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually-rich document entity retrieval (VDER), which extracts key
information (e.g. date, address) from document images like invoices and
receipts, has become an important topic in industrial NLP applications. The
emergence of new document types at a constant pace, each with its unique entity
types, presents a unique challenge: many documents contain unseen entity types
that occur only a couple of times. Addressing this challenge requires models to
have the ability of learning entities in a few-shot manner. However, prior
works for Few-shot VDER mainly address the problem at the document level with a
predefined global entity space, which doesn't account for the entity-level
few-shot scenario: target entity types are locally personalized by each task
and entity occurrences vary significantly among documents. To address this
unexplored scenario, this paper studies a novel entity-level few-shot VDER
task. The challenges lie in the uniqueness of the label space for each task and
the increased complexity of out-of-distribution (OOD) contents. To tackle this
novel task, we present a task-aware meta-learning based framework, with a
central focus on achieving effective task personalization that distinguishes
between in-task and out-of-task distribution. Specifically, we adopt a
hierarchical decoder (HC) and employ contrastive learning (ContrastProtoNet) to
achieve this goal. Furthermore, we introduce a new dataset, FewVEX, to boost
future research in the field of entity-level few-shot VDER. Experimental
results demonstrate our approaches significantly improve the robustness of
popular meta-learning baselines.
- Abstract(参考訳): 請求書やレシートなどの文書画像からキー情報(例えば日付、住所)を抽出する視覚リッチ文書エンティティ検索(vder)は、産業nlpアプリケーションにおいて重要なトピックとなっている。
ユニークなエンティティタイプを持つ新しいドキュメントタイプが一定のペースで出現することは、ユニークな課題を示している。
この課題に対処するには、モデルが数秒でエンティティを学習する能力を持つ必要がある。
しかし、Few-shot VDERの以前の研究は、主に文書レベルでの問題を、定義済みのグローバルエンティティ空間で解決しており、これはエンティティレベルの少数ショットシナリオを考慮していない:ターゲットエンティティタイプは、各タスクによって局所的にパーソナライズされ、エンティティの発生は文書間で大きく異なる。
本稿では、この未探索シナリオに対処するために、エンティティレベルの新規なVDERタスクについて検討する。
課題は、各タスクのラベル空間のユニークさと、配布外コンテンツ(OOD)の複雑さの増加にある。
本稿では,タスク内分布とタスク外分布を区別する効果的なタスクパーソナライズを実現することを中心に,タスク対応型メタ学習フレームワークを提案する。
具体的には、階層型デコーダ(HC)を採用し、コントラスト学習(ContrastProtoNet)を用いてこの目標を達成する。
さらに,新たなデータセットであるFewVEXを導入し,エンティティレベルの小ショットVDERの分野における今後の研究を促進する。
実験の結果,一般的なメタラーニングベースラインのロバスト性が大幅に向上した。
関連論文リスト
- BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - Distribution Matching for Multi-Task Learning of Classification Tasks: a
Large-Scale Study on Faces & Beyond [62.406687088097605]
マルチタスク学習(MTL)は、複数の関連するタスクを共同で学習し、共有表現空間から恩恵を受けるフレームワークである。
MTLは、ほとんど重複しない、あるいは重複しないアノテーションで分類タスクで成功することを示す。
本稿では,分散マッチングによるタスク間の知識交換を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T14:18:11Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - VRDU: A Benchmark for Visually-rich Document Understanding [22.040372755535767]
より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。
多様なデータ型と階層的なエンティティを含むリッチスキーマ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性。
提案手法は,抽出結果を評価するために慎重に設計されたマッチングアルゴリズムとともに,数ショットおよび従来型の実験環境を設計する。
論文 参考訳(メタデータ) (2022-11-15T03:17:07Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。