論文の概要: Towards Few-shot Entity Recognition in Document Images: A Label-aware
Sequence-to-Sequence Framework
- arxiv url: http://arxiv.org/abs/2204.05819v1
- Date: Wed, 30 Mar 2022 18:30:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-17 08:55:26.125154
- Title: Towards Few-shot Entity Recognition in Document Images: A Label-aware
Sequence-to-Sequence Framework
- Title(参考訳): 文書画像における少数ショットエンティティ認識に向けて:ラベル対応シーケンス・ツー・シーケンス・フレームワーク
- Authors: Zilong Wang, Jingbo Shang
- Abstract要約: アノテーション付き文書画像のほんの数ショットしか必要としないエンティティ認識モデルを構築します。
ラベルを意識したSeq2seqフレームワーク LASER を開発した。
2つのベンチマークデータセットの実験は、数ショット設定下でのLASERの優位性を示している。
- 参考スコア(独自算出の注目度): 28.898240725099782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Entity recognition is a fundamental task in understanding document images.
Traditional sequence labeling frameworks treat the entity types as class IDs
and rely on extensive data and high-quality annotations to learn semantics
which are typically expensive in practice. In this paper, we aim to build an
entity recognition model requiring only a few shots of annotated document
images. To overcome the data limitation, we propose to leverage the label
surface names to better inform the model of the target entity type semantics
and also embed the labels into the spatial embedding space to capture the
spatial correspondence between regions and labels. Specifically, we go beyond
sequence labeling and develop a novel label-aware seq2seq framework, LASER. The
proposed model follows a new labeling scheme that generates the label surface
names word-by-word explicitly after generating the entities. During training,
LASER refines the label semantics by updating the label surface name
representations and also strengthens the label-region correlation. In this way,
LASER recognizes the entities from document images through both semantic and
layout correspondence. Extensive experiments on two benchmark datasets
demonstrate the superiority of LASER under the few-shot setting.
- Abstract(参考訳): エンティティ認識は、文書イメージを理解するための基本的なタスクである。
従来のシーケンスラベリングフレームワークは、エンティティタイプをクラスIDとして扱い、一般的に高価であるセマンティクスを学ぶために、広範囲のデータと高品質なアノテーションに依存している。
本稿では,アノテートされた文書画像のわずかなショットだけを必要とするエンティティ認識モデルを構築することを目的とする。
データ制限を克服するため,対象のエンティティタイプセマンティクスのモデルにラベル名を活用するとともに,ラベルを空間埋め込み空間に埋め込んで,領域とラベル間の空間的対応を捉えることを提案する。
具体的には、シーケンスラベリングを超えて、新しいラベル認識のseq2seqフレームワークであるlaserを開発します。
提案モデルは、エンティティ生成後に明示的に単語単位のラベル表名を生成する新しいラベリングスキームに従う。
学習中、LASERはラベル表面の名前表現を更新することでラベルの意味を洗練し、ラベル領域の相関も強化する。
このように、レーザーは文書画像からのエンティティを意味的およびレイアウト的対応の両方を通して認識する。
2つのベンチマークデータセットに対する大規模な実験は、数ショット設定下でのLASERの優位性を示している。
関連論文リスト
- Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文 参考訳(メタデータ) (2022-03-04T07:56:16Z) - A Label Dependence-aware Sequence Generation Model for Multi-level
Implicit Discourse Relation Recognition [31.179555215952306]
暗黙の談話関係認識は、談話分析において難しいが重要な課題である。
ラベル依存型シーケンス生成モデル(LDSGM)を提案する。
ボトムアップ方向のラベル依存を利用した相互学習強化訓練法を開発した。
論文 参考訳(メタデータ) (2021-12-22T09:14:03Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - Few-shot Slot Tagging with Collapsed Dependency Transfer and
Label-enhanced Task-adaptive Projection Network [61.94394163309688]
本稿では,現在最先端の少数ショット分類モデルであるTapNetに基づくラベル強化タスク適応プロジェクションネットワーク(L-TapNet)を提案する。
実験結果から,本モデルは1ショット設定で14.64点のF1スコアで最強の少ショット学習ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-10T07:50:44Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。