論文の概要: FormNet: Structural Encoding beyond Sequential Modeling in Form Document
Information Extraction
- arxiv url: http://arxiv.org/abs/2203.08411v1
- Date: Wed, 16 Mar 2022 06:02:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-18 02:44:03.342426
- Title: FormNet: Structural Encoding beyond Sequential Modeling in Form Document
Information Extraction
- Title(参考訳): FormNet:フォームドキュメンテーション情報抽出におけるシーケンスモデリング以外の構造エンコーディング
- Authors: Chen-Yu Lee, Chun-Liang Li, Timothy Dozat, Vincent Perot, Guolong Su,
Nan Hua, Joshua Ainslie, Renshen Wang, Yasuhisa Fujii, Tomas Pfister
- Abstract要約: FormNetは、フォームの最適部分シリアライゼーションを緩和する構造対応シーケンスモデルである。
実験では、FormNetは、よりコンパクトで事前学習の少ない既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 32.04423945008829
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence modeling has demonstrated state-of-the-art performance on natural
language and document understanding tasks. However, it is challenging to
correctly serialize tokens in form-like documents in practice due to their
variety of layout patterns. We propose FormNet, a structure-aware sequence
model to mitigate the suboptimal serialization of forms. First, we design Rich
Attention that leverages the spatial relationship between tokens in a form for
more precise attention score calculation. Second, we construct Super-Tokens for
each word by embedding representations from their neighboring tokens through
graph convolutions. FormNet therefore explicitly recovers local syntactic
information that may have been lost during serialization. In experiments,
FormNet outperforms existing methods with a more compact model size and less
pre-training data, establishing new state-of-the-art performance on CORD, FUNSD
and Payment benchmarks.
- Abstract(参考訳): シーケンスモデリングは、自然言語と文書理解タスクにおける最先端のパフォーマンスを示す。
しかし,様々なレイアウトパターンのため,トークンを形式的な文書で正しくシリアライズすることは困難である。
本稿では,フォームのサブオプティカルシリアライズを緩和する構造認識シーケンスモデルformnetを提案する。
まず,トークン間の空間的関係を利用したリッチアテンションを設計し,より正確なアテンションスコア計算を行う。
次に,隣接するトークンからグラフ畳み込みによる表現を埋め込み,各単語に対するスーパートークンを構築する。
したがってformnetは、シリアライズ中に失われた可能性のあるローカルな構文情報を明示的に復元する。
実験では、FormNetは、CORD、FUNSD、Paymentベンチマーク上で、よりコンパクトなモデルサイズとより少ない事前トレーニングデータで既存のメソッドよりも優れています。
関連論文リスト
- XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [35.69888780388425]
本研究では, 単純だが効果的な textbfMultimodal と textbfMultilingual semi-structured textbfFORM textbfXForm フレームワークを提案する。
textbfXFormは、包括的な事前訓練された言語モデルに固定されており、革新的にエンティティ認識とリレーショナルREである。
本フレームワークは,マルチ言語およびゼロショットの両文脈において,タスク間の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - AlloyASG: Alloy Predicate Code Representation as a Compact Structurally Balanced Graph [0.6445605125467574]
我々はCSBASG(Compplex Structurely Balanced Abstract Semantic Graph)という新しいコード表現スキーマを導入する。
CSBASGは、ある意味的要素をグラフのノードとしてリストする複雑な重み付き有向グラフとしてコードを表す。
我々は,合金モデルに対するCSBASG表現の効率を,ASTと比較してコンパクト性の観点から評価した。
論文 参考訳(メタデータ) (2024-02-29T22:41:09Z) - Collaborative decoding of critical tokens for boosting factuality of
large language models [57.504894664689]
微調整および整列モデルでは、命令追従と安全な生成の能力が改善されている。
世代ごとのサンプリングの一般的な実践は、幻覚の確率を増大させる。
我々は、クリティカルトークンの概念を通じて、事前訓練されたモデル内の高い事実性を活用するための協調的復号化フレームワークを導入する。
論文 参考訳(メタデータ) (2024-02-28T01:53:37Z) - Language Independent Neuro-Symbolic Semantic Parsing for Form
Understanding [11.042088913869462]
LAGNNと呼ばれるスキャンされたフォームに対するユニークなエンティティ関係グラフ解析法を提案する。
本モデルでは, 形式を単語関係グラフに解析し, 実体と関係を共同で同定する。
我々のモデルは、レイアウト情報から境界ボックス間の相対的な間隔を考慮し、言語間の転送を容易にする。
論文 参考訳(メタデータ) (2023-05-08T05:03:07Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Code Representation Learning with Pr\"ufer Sequences [2.2463154358632464]
コンピュータプログラムのソースコードの効果的なエンコーディングは、シーケンシャル・ツー・シーケンス・ディープ・ニューラルネットワークモデルの成功に不可欠である。
本稿では,コンピュータプログラムの抽象構文木 (AST) の Pr"ufer sequence を用いて,逐次表現スキームを設計することを提案する。
我々の表現は、学習例における語彙トークンによって伝達される信号を、自動的に選択的に活用できるディープラーニングモデルの開発を可能にする。
論文 参考訳(メタデータ) (2021-11-14T07:27:38Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z) - Interpretable Entity Representations through Large-Scale Typing [61.4277527871572]
本稿では,人間の読みやすいエンティティ表現を作成し,箱から高パフォーマンスを実現する手法を提案する。
我々の表現は、微粒な実体型に対する後続確率に対応するベクトルである。
特定のドメインに対して,学習に基づく方法で,型セットのサイズを縮小できることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。