論文の概要: A Question-Answering Approach to Key Value Pair Extraction from
Form-like Document Images
- arxiv url: http://arxiv.org/abs/2304.07957v1
- Date: Mon, 17 Apr 2023 02:55:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 16:33:52.054066
- Title: A Question-Answering Approach to Key Value Pair Extraction from
Form-like Document Images
- Title(参考訳): フォーム状文書画像からのキーバリューペア抽出に対する質問応答手法
- Authors: Kai Hu, Zhuoyuan Wu, Zhuoyao Zhong, Weihong Lin, Lei Sun, Qiang Huo
- Abstract要約: 質問応答(QA)に基づくキー-値ペア抽出手法KVPFormerを提案する。
本稿では,より高精度な解答予測を実現するために,粗大な解答予測手法を提案する。
提案したOursは,FUNSDおよびXFUNDデータセットの最先端結果を実現し,F1スコアのそれぞれ7.2%,13.2%を達成している。
- 参考スコア(独自算出の注目度): 8.73248722579337
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present a new question-answering (QA) based key-value pair
extraction approach, called KVPFormer, to robustly extracting key-value
relationships between entities from form-like document images. Specifically,
KVPFormer first identifies key entities from all entities in an image with a
Transformer encoder, then takes these key entities as \textbf{questions} and
feeds them into a Transformer decoder to predict their corresponding
\textbf{answers} (i.e., value entities) in parallel. To achieve higher answer
prediction accuracy, we propose a coarse-to-fine answer prediction approach
further, which first extracts multiple answer candidates for each identified
question in the coarse stage and then selects the most likely one among these
candidates in the fine stage. In this way, the learning difficulty of answer
prediction can be effectively reduced so that the prediction accuracy can be
improved. Moreover, we introduce a spatial compatibility attention bias into
the self-attention/cross-attention mechanism for \Ours{} to better model the
spatial interactions between entities. With these new techniques, our proposed
\Ours{} achieves state-of-the-art results on FUNSD and XFUND datasets,
outperforming the previous best-performing method by 7.2\% and 13.2\% in F1
score, respectively.
- Abstract(参考訳): 本稿では,KVPFormerと呼ばれる,QAに基づくキー-値ペア抽出手法を提案する。
具体的には、kvpformerはまず、画像内のすべてのエンティティからキーエンティティをトランスフォーマエンコーダで識別し、次にこれらのキーエンティティを \textbf{questions} として、対応する \textbf{answers} (すなわち値エンティティ) を並列に予測するトランスフォーマデコーダに供給する。
さらに,より高精度な回答予測を実現するために,各質問に対する複数の回答候補を粗い段階で抽出し,その候補の中から最も可能性の高い回答候補を精細な段階で選択する粗い回答予測手法を提案する。
これにより、回答予測の学習難しさを効果的に低減し、予測精度を向上させることができる。
さらに,物体間の空間的相互作用をより良くモデル化するために,空間的整合性注意バイアスを導入している。
これらの新手法により,提案したOurs{} は FUNSD と XFUND のデータセットの最先端化を実現し,F1 のスコアの7.2 % と 13.2 % をそれぞれ上回った。
関連論文リスト
- A Manifold Representation of the Key in Vision Transformers [8.938418994111716]
本稿では、キーをクエリと値から切り離し、キーの多様体表現を採用するという概念について検討する。
実験の結果,鍵を多様体構造で切り離して付与することで,モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-01T12:01:43Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - Progressive End-to-End Object Detection in Crowded Scenes [96.92416613336096]
以前のクエリベースの検出器は2つの欠点に悩まされていた: まず、複数の予測が1つのオブジェクトに対して推論される。
具体的には、まず受理されたクエリを選択して正の予測を生成し、その後、受理された予測に従って残雑音のあるクエリを精査する。
提案手法は,混み合ったシーンにおける問合せ型検出器の性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-03-15T06:12:00Z) - MatchVIE: Exploiting Match Relevancy between Entities for Visual
Information Extraction [48.55908127994688]
我々は、VIE(MatchVIE)のためのグラフニューラルネットワークに基づく新しいキー値マッチングモデルを提案する。
関連性評価に基づくキー値マッチングにより、提案したMatchVIEは、認識を様々な意味論にバイパスすることができる。
我々は、エンコードされた値の不安定性に対処するために、単純だが効果的な操作であるNum2Vecを導入する。
論文 参考訳(メタデータ) (2021-06-24T12:06:29Z) - Question Answering Infused Pre-training of General-Purpose
Contextualized Representations [70.62967781515127]
汎用的文脈表現学習のための質問応答(QA)に基づく事前学習目的を提案する。
我々は、より正確なクロスエンコーダモデルの予測と一致するように、個別にパスと質問をエンコードするバイエンコーダQAモデルをトレーニングすることで、この目標を達成する。
ゼロショット, 少数ショットのパラフレーズ検出において, RoBERTa-large と過去の最先端のどちらよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-06-15T14:45:15Z) - Adaptive Bi-directional Attention: Exploring Multi-Granularity
Representations for Machine Reading Comprehension [29.717816161964105]
異なるレベルのソース表現を予測器に適応的に適用するAdaptive Bidirectional Attentionと呼ばれる新しいアプローチを提案する。
結果は、2.5$%$ EMと2.3$%$ F1スコアによる以前の最新モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-20T09:31:35Z) - Automated Concatenation of Embeddings for Structured Prediction [75.44925576268052]
本稿では, 埋め込みの自動結合(ACE)を提案し, 構造予測タスクにおける埋め込みのより優れた結合を見つけるプロセスを自動化する。
我々は、強化学習の戦略に従い、制御器のパラメータを最適化し、タスクモデルの精度に基づいて報酬を計算する。
論文 参考訳(メタデータ) (2020-10-10T14:03:20Z) - Tradeoffs in Sentence Selection Techniques for Open-Domain Question
Answering [54.541952928070344]
文選択のためのモデルの2つのグループについて述べる。QAベースのアプローチは、解答候補を特定するための完全なQAシステムを実行し、検索ベースのモデルは、各質問に特に関連する各節の一部を見つける。
非常に軽量なQAモデルは、このタスクではうまく機能するが、検索ベースモデルは高速である。
論文 参考訳(メタデータ) (2020-09-18T23:39:15Z) - AMR Parsing via Graph-Sequence Iterative Inference [62.85003739964878]
本稿では,AMR解析を入力シーケンスとインクリメンタルに構築されたグラフ上での2つの決定の連続として扱うエンド・ツー・エンドのモデルを提案する。
これら2つの質問に対する回答は相互因果関係であることを示す。
我々は、両方の視点でより良い回答を得るのに役立つ反復推論に基づくモデルを設計し、解析精度を大幅に改善する。
論文 参考訳(メタデータ) (2020-04-12T09:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。