論文の概要: Visual FUDGE: Form Understanding via Dynamic Graph Editing
- arxiv url: http://arxiv.org/abs/2105.08194v1
- Date: Mon, 17 May 2021 23:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:00:03.504979
- Title: Visual FUDGE: Form Understanding via Dynamic Graph Editing
- Title(参考訳): Visual FUDGE:動的グラフ編集によるフォーム理解
- Authors: Brian Davis, Bryan Morse, Brian Price, Chris Tensmeyer, Curtis
Wiginton
- Abstract要約: 提案したFUDGEモデルは、テキスト要素のグラフ上でこの問題を定式化する。
グラフ畳み込みネットワークを使用して、グラフの変更を予測する。
FUDGEは歴史的NAFデータセットの最先端である。
- 参考スコア(独自算出の注目度): 2.012425476229879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of form understanding: finding text entities and the
relationships/links between them in form images. The proposed FUDGE model
formulates this problem on a graph of text elements (the vertices) and uses a
Graph Convolutional Network to predict changes to the graph. The initial
vertices are detected text lines and do not necessarily correspond to the final
text entities, which can span multiple lines. Also, initial edges contain many
false-positive relationships. FUDGE edits the graph structure by combining text
segments (graph vertices) and pruning edges in an iterative fashion to obtain
the final text entities and relationships. While recent work in this area has
focused on leveraging large-scale pre-trained Language Models (LM), FUDGE
achieves the same level of entity linking performance on the FUNSD dataset by
learning only visual features from the (small) provided training set. FUDGE can
be applied on forms where text recognition is difficult (e.g. degraded or
historical forms) and on forms in resource-poor languages where pre-training
such LMs is challenging. FUDGE is state-of-the-art on the historical NAF
dataset.
- Abstract(参考訳): 形態理解の問題は、テキストエンティティの発見と、それらの間の関係やリンクを画像として表現することである。
提案したFUDGEモデルは、テキスト要素(頂点)のグラフ上でこの問題を定式化し、グラフ畳み込みネットワークを用いてグラフの変更を予測する。
初期頂点は検出されたテキスト行であり、複数の行にまたがる最終的なテキストエンティティに必ずしも対応しない。
また、初期辺は多くの偽陽性関係を含む。
FUDGEは、テキストセグメント(グラフ頂点)とプルーニングエッジを反復的に組み合わせてグラフ構造を編集し、最終的なテキストエンティティと関係を得る。
この分野における最近の研究は、大規模事前学習言語モデル(LM)の活用に重点を置いているが、FUDGEは(小さな)トレーニングセットからのみ視覚的特徴を学習することで、FUNSDデータセット上で同じレベルのエンティティリンク性能を達成する。
FUDGEは、テキスト認識が難しい形式(例)に適用できる。
このようなLMの事前訓練が困難である、リソース不足言語における形式に関するもの。
FUDGEは歴史的NAFデータセットの最先端である。
関連論文リスト
- A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - GAugLLM: Improving Graph Contrastive Learning for Text-Attributed Graphs with Large Language Models [33.3678293782131]
本研究は,テキスト分散グラフ(TAG)の自己教師付きグラフ学習に関する研究である。
言語指導によるビュージェネレーションの改善を目指しています。
これは、リッチなセマンティック情報を持つグラフ構造を補完する、実際のアプリケーションにおけるテキスト属性の出現によって引き起こされる。
論文 参考訳(メタデータ) (2024-06-17T17:49:19Z) - TAGA: Text-Attributed Graph Self-Supervised Learning by Synergizing Graph and Text Mutual Transformations [15.873944819608434]
Text-Attributed Graphs (TAG)は、自然言語記述によるグラフ構造を強化する。
本稿では,TAGの構造的・意味的次元を統合した,新たな自己教師型学習フレームワークであるText-And-Graph Multi-View Alignment(TAGA)を紹介する。
本フレームワークは,8つの実世界のデータセットを対象としたゼロショットおよび少数ショットシナリオにおいて,強力なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-27T03:40:16Z) - Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - JointGT: Graph-Text Joint Representation Learning for Text Generation
from Knowledge Graphs [44.06715423776722]
本論文では,ジョイントGTと呼ばれるグラフテキスト共同表現学習モデルを提案する。
エンコーディング中、各トランスフォーマー層にプラグインされた構造対応セマンティックアグリゲーションモジュールを考案した。
種々のKG-to-textデータセット上で,JointGTが新たな最先端性能を得ることを示す。
論文 参考訳(メタデータ) (2021-06-19T14:10:10Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。