論文の概要: Language Independent Neuro-Symbolic Semantic Parsing for Form
Understanding
- arxiv url: http://arxiv.org/abs/2305.04460v1
- Date: Mon, 8 May 2023 05:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:33:36.788775
- Title: Language Independent Neuro-Symbolic Semantic Parsing for Form
Understanding
- Title(参考訳): 形態理解のための言語独立型ニューロシンボリックセマンティックパーシング
- Authors: Bhanu Prakash Voutharoja and Lizhen Qu and Fatemeh Shiri
- Abstract要約: LAGNNと呼ばれるスキャンされたフォームに対するユニークなエンティティ関係グラフ解析法を提案する。
本モデルでは, 形式を単語関係グラフに解析し, 実体と関係を共同で同定する。
我々のモデルは、レイアウト情報から境界ボックス間の相対的な間隔を考慮し、言語間の転送を容易にする。
- 参考スコア(独自算出の注目度): 11.042088913869462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on form understanding mostly employ multimodal transformers or
large-scale pre-trained language models. These models need ample data for
pre-training. In contrast, humans can usually identify key-value pairings from
a form only by looking at layouts, even if they don't comprehend the language
used. No prior research has been conducted to investigate how helpful layout
information alone is for form understanding. Hence, we propose a unique
entity-relation graph parsing method for scanned forms called LAGNN, a
language-independent Graph Neural Network model. Our model parses a form into a
word-relation graph in order to identify entities and relations jointly and
reduce the time complexity of inference. This graph is then transformed by
deterministic rules into a fully connected entity-relation graph. Our model
simply takes into account relative spacing between bounding boxes from layout
information to facilitate easy transfer across languages. To further improve
the performance of LAGNN, and achieve isomorphism between entity-relation
graphs and word-relation graphs, we use integer linear programming (ILP) based
inference. Code is publicly available at https://github.com/Bhanu068/LAGNN
- Abstract(参考訳): フォーム理解に関する最近の研究は、主にマルチモーダルトランスフォーマーや大規模事前学習言語モデルを用いている。
これらのモデルは事前学習に十分なデータを必要とする。
対照的に、人間が通常、使用する言語を理解していなくても、レイアウトを見るだけで、フォームからキーと値のペアを識別できる。
レイアウト情報だけでフォーム理解がいかに役立つかを調べるための先行研究は行われていない。
そこで本稿では,言語に依存しないグラフニューラルネットワークモデルである LAGNN と呼ばれる,スキャンされた形式のエンティティ関係グラフ解析手法を提案する。
モデルでは,形式を単語関係グラフに解析することで,エンティティと関係を共同で識別し,推論の時間的複雑さを低減する。
このグラフは決定論的規則によって完全連結な実体関係グラフへと変換される。
我々のモデルは、レイアウト情報から境界ボックス間の相対的な間隔を考慮し、言語間の転送を容易にする。
lagnnの性能をさらに向上し、エンティティ関係グラフと単語関係グラフの同型を実現するために、整数線形プログラミング(ilp)に基づく推論を用いる。
コードはhttps://github.com/Bhanu068/LAGNNで公開されている。
関連論文リスト
- GLaM: Fine-Tuning Large Language Models for Domain Knowledge Graph Alignment via Neighborhood Partitioning and Generative Subgraph Encoding [39.67113788660731]
グラフ対応LAnguage Models (GLaM) を開発するためのフレームワークを紹介する。
特定のグラフに基づく知識でモデルを構築することは、構造に基づく推論のためのモデルの能力を拡張することを実証する。
論文 参考訳(メタデータ) (2024-02-09T19:53:29Z) - Coreference Graph Guidance for Mind-Map Generation [5.289044688419791]
近年、最先端の手法が文書の文を逐次エンコードし、シークエンス・トゥ・グラフを介して関係グラフに変換する。
外部構造知識を組み込むためのコア推論誘導マインドマップ生成ネットワーク(CMGN)を提案する。
論文 参考訳(メタデータ) (2023-12-19T09:39:27Z) - GraphextQA: A Benchmark for Evaluating Graph-Enhanced Large Language
Models [33.56759621666477]
本稿では,言語モデルへのグラフ知識の統合を評価するためのベンチマークデータセットを提案する。
提案したデータセットは,グラフの理解能力を評価し,回答生成に利用するように設計されている。
言語のみのモデルと提案したグラフ言語モデルを用いて,ペアグラフの有用性を検証し,課題の難しさを実証する。
論文 参考訳(メタデータ) (2023-10-12T16:46:58Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Learnable Graph Matching: A Practical Paradigm for Data Association [74.28753343714858]
これらの問題に対処するための一般的な学習可能なグラフマッチング法を提案する。
提案手法は,複数のMOTデータセット上での最先端性能を実現する。
画像マッチングでは,一般的な屋内データセットであるScanNetで最先端の手法より優れている。
論文 参考訳(メタデータ) (2023-03-27T17:39:00Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Explanation Graph Generation via Pre-trained Language Models: An
Empirical Study with Contrastive Learning [84.35102534158621]
エンドツーエンドで説明グラフを生成する事前学習言語モデルについて検討する。
本稿では,ノードとエッジの編集操作によるグラフ摂動の簡易かつ効果的な方法を提案する。
提案手法は,説明グラフの構造的精度と意味的精度を両立させる。
論文 参考訳(メタデータ) (2022-04-11T00:58:27Z) - Neural Graph Matching for Pre-training Graph Neural Networks [72.32801428070749]
グラフニューラルネットワーク(GNN)は、構造データのモデリングにおいて強力な能力を示している。
GMPTと呼ばれる新しいグラフマッチングベースのGNN事前学習フレームワークを提案する。
提案手法は,完全自己指導型プレトレーニングと粗粒型プレトレーニングに適用できる。
論文 参考訳(メタデータ) (2022-03-03T09:53:53Z) - Visual FUDGE: Form Understanding via Dynamic Graph Editing [2.012425476229879]
提案したFUDGEモデルは、テキスト要素のグラフ上でこの問題を定式化する。
グラフ畳み込みネットワークを使用して、グラフの変更を予測する。
FUDGEは歴史的NAFデータセットの最先端である。
論文 参考訳(メタデータ) (2021-05-17T23:18:39Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。