論文の概要: UNER: A Unified Prediction Head for Named Entity Recognition in Visually-rich Documents
- arxiv url: http://arxiv.org/abs/2408.01038v1
- Date: Fri, 2 Aug 2024 06:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 14:26:49.194854
- Title: UNER: A Unified Prediction Head for Named Entity Recognition in Visually-rich Documents
- Title(参考訳): UNER:ビジュアルリッチドキュメントにおける名前付きエンティティ認識のための統一予測ヘッド
- Authors: Yi Tu, Chong Zhang, Ya Guo, Huan Chen, Jinyang Tang, Huijia Zhu, Qi Zhang,
- Abstract要約: 視覚的にリッチなドキュメント(VrD-NER)における名前付きエンティティの認識は、様々な現実のシナリオやアプリケーションにおいて重要な役割を果たす。
VrD-NERの研究は、複雑なドキュメントレイアウト、誤った読み込み順序、不適切なタスク定式化の3つの大きな課題に直面している。
我々は、既存のマルチモーダル文書変換器と協調してより堅牢なVrD-NERモデルを開発するために、クエリ対応エンティティ抽出ヘッドUNERを提案する。
- 参考スコア(独自算出の注目度): 15.898097545421505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recognition of named entities in visually-rich documents (VrD-NER) plays a critical role in various real-world scenarios and applications. However, the research in VrD-NER faces three major challenges: complex document layouts, incorrect reading orders, and unsuitable task formulations. To address these challenges, we propose a query-aware entity extraction head, namely UNER, to collaborate with existing multi-modal document transformers to develop more robust VrD-NER models. The UNER head considers the VrD-NER task as a combination of sequence labeling and reading order prediction, effectively addressing the issues of discontinuous entities in documents. Experimental evaluations on diverse datasets demonstrate the effectiveness of UNER in improving entity extraction performance. Moreover, the UNER head enables a supervised pre-training stage on various VrD-NER datasets to enhance the document transformer backbones and exhibits substantial knowledge transfer from the pre-training stage to the fine-tuning stage. By incorporating universal layout understanding, a pre-trained UNER-based model demonstrates significant advantages in few-shot and cross-linguistic scenarios and exhibits zero-shot entity extraction abilities.
- Abstract(参考訳): 視覚的にリッチなドキュメント(VrD-NER)における名前付きエンティティの認識は、様々な現実のシナリオやアプリケーションにおいて重要な役割を果たす。
しかしながら、VrD-NERの研究は、複雑なドキュメントレイアウト、誤った読み込み順序、不適切なタスク定式化の3つの大きな課題に直面している。
これらの課題に対処するため、既存のマルチモーダル文書変換器と協調してより堅牢なVrD-NERモデルを開発するために、クエリ対応エンティティ抽出ヘッドであるUNERを提案する。
UNERヘッドは、VrD-NERタスクをシーケンスラベリングと読み込み順序予測の組み合わせとみなし、文書における不連続なエンティティの問題に効果的に対処する。
多様なデータセットの実験的評価は、UNERがエンティティ抽出性能を向上させる効果を示す。
さらに、UNERヘッドは、各種VrD-NERデータセットの教師付き事前学習段階を可能とし、文書トランスフォーマーバックボーンを強化し、事前学習段階から微調整段階への実質的な知識伝達を示す。
普遍的なレイアウト理解を取り入れることで、事前訓練されたUNERベースのモデルは、少数ショットおよび多言語シナリオにおいて大きな利点を示し、ゼロショットエンティティ抽出能力を示す。
関連論文リスト
- On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Integrating Contrastive Learning into a Multitask Transformer Model for
Effective Domain Adaptation [4.157415305926585]
本稿では,SERを主課題とするマルチタスクフレームワークを具現化した新しいドメイン適応手法を提案する。
提案手法は, クロスコーパスシナリオにおけるSERの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-07T06:41:29Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Multi-task Transformer with Relation-attention and Type-attention for
Named Entity Recognition [35.44123819012004]
名前付きエンティティ認識(NER)は自然言語処理において重要な研究課題である。
本稿では,エンティティ境界検出タスクを名前付きエンティティ認識タスクに組み込むマルチタスク変換器を提案する。
論文 参考訳(メタデータ) (2023-03-20T05:11:22Z) - MINER: Improving Out-of-Vocabulary Named Entity Recognition from an
Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。
近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。
我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文 参考訳(メタデータ) (2022-04-09T05:18:20Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - WSL-DS: Weakly Supervised Learning with Distant Supervision for Query
Focused Multi-Document Abstractive Summarization [16.048329028104643]
Query Focused Multi-Document Summarization (QF-MDS)タスクでは、ドキュメントのセットとクエリが与えられ、そこでこれらのドキュメントから要約を生成する。
このタスクの大きな課題のひとつは、ラベル付きトレーニングデータセットの可用性の欠如である。
本稿では,遠隔指導による弱教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-03T02:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。