論文の概要: RE$^2$: Region-Aware Relation Extraction from Visually Rich Documents
- arxiv url: http://arxiv.org/abs/2305.14590v2
- Date: Tue, 4 Jun 2024 01:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 14:36:23.585308
- Title: RE$^2$: Region-Aware Relation Extraction from Visually Rich Documents
- Title(参考訳): RE$^2$:ビジュアルリッチドキュメントからの領域認識関係抽出
- Authors: Pritika Ramu, Sijia Wang, Lalla Mouatadid, Joy Rimchala, Lifu Huang,
- Abstract要約: 本稿では,各ブロック間の領域レベルの空間構造を利用して関係予測を改善するRegion-Aware Relation extract (RE$2$)を提案する。
また、関係抽出タスクの固有の制約との整合性に向けてモデルを規則化するための制約目標も導入する。
- 参考スコア(独自算出の注目度): 18.369611871952667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current research in form understanding predominantly relies on large pre-trained language models, necessitating extensive data for pre-training. However, the importance of layout structure (i.e., the spatial relationship between the entity blocks in the visually rich document) to relation extraction has been overlooked. In this paper, we propose REgion-Aware Relation Extraction (RE$^2$) that leverages region-level spatial structure among the entity blocks to improve their relation prediction. We design an edge-aware graph attention network to learn the interaction between entities while considering their spatial relationship defined by their region-level representations. We also introduce a constraint objective to regularize the model towards consistency with the inherent constraints of the relation extraction task. Extensive experiments across various datasets, languages and domains demonstrate the superiority of our proposed approach.
- Abstract(参考訳): フォーム理解における現在の研究は、主に事前学習のための広範なデータを必要とする大規模な事前学習言語モデルに依存している。
しかし、レイアウト構造(つまり、視覚的にリッチな文書におけるエンティティブロック間の空間的関係)と関係抽出の重要性は見過ごされている。
本稿では,各ブロック間の領域レベルの空間構造を利用したRegion-Aware Relation extract (RE$^2$)を提案する。
エッジ対応グラフアテンションネットワークを設計し、その領域レベルの表現によって定義される空間的関係を考慮しながら、エンティティ間の相互作用を学習する。
また、関係抽出タスクの固有の制約との整合性に向けてモデルを規則化するための制約目標も導入する。
様々なデータセット、言語、ドメインにわたる大規模な実験は、提案手法の優位性を実証している。
関連論文リスト
- Non-parametric Contextual Relationship Learning for Semantic Video Object Segmentation [1.4042211166197214]
そこでは,領域の類似性グラフ上に,オブジェクト仮説によって暗示される固有関係をエンコードする,文脈的手がかりの非パラメトリックな例を紹介した。
本アルゴリズムは,学習コンテキストを条件付きランダムフィールド(CRF)にペアポテンシャルの形で統合し,領域ごとのセマンティックラベルを推論する。
提案手法は,YouTube-Objectsデータセットの課題に対して評価を行い,提案手法が最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-07-08T13:22:13Z) - EnriCo: Enriched Representation and Globally Constrained Inference for Entity and Relation Extraction [3.579132482505273]
結合実体と関係抽出は、特に知識グラフの構築において、様々な応用において重要な役割を担っている。
既存のアプローチはしばしば、表現の豊かさと出力構造におけるコヒーレンスという2つの重要な側面に欠ける。
本研究では,これらの欠点を緩和するEnriCoを紹介する。
論文 参考訳(メタデータ) (2024-04-18T20:15:48Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z) - Learning Complete Topology-Aware Correlations Between Relations for Inductive Link Prediction [121.65152276851619]
関係性間の意味的相関は本質的にエッジレベルとエンティティ非依存であることを示す。
本研究では,関係関係のトポロジ・アウェア・コレレーションをモデル化するための新しいサブグラフベース手法,TACOを提案する。
RCNのポテンシャルをさらに活用するために, 完全コモンニアインダストリアルサブグラフを提案する。
論文 参考訳(メタデータ) (2023-09-20T08:11:58Z) - Leveraging Knowledge Graph Embeddings to Enhance Contextual
Representations for Relation Extraction [0.0]
コーパススケールに事前学習した知識グラフを組み込んだ文レベルの文脈表現への関係抽出手法を提案する。
提案手法の有望かつ非常に興味深い結果を示す一連の実験を行った。
論文 参考訳(メタデータ) (2023-06-07T07:15:20Z) - Message Intercommunication for Inductive Relation Reasoning [49.731293143079455]
我々はMINESと呼ばれる新しい帰納的関係推論モデルを開発した。
隣り合う部分グラフにメッセージ通信機構を導入する。
我々の実験は、MINESが既存の最先端モデルより優れていることを示している。
論文 参考訳(メタデータ) (2023-05-23T13:51:46Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z) - End-to-End Hierarchical Relation Extraction for Generic Form
Understanding [0.6299766708197884]
本稿では,エンティティ検出とリンク予測を併用する新しいディープニューラルネットワークを提案する。
本モデルでは,複数段階の意図的U-Netアーキテクチャを拡張し,リンク予測のための部分強度場と部分連想場を拡張した。
本稿では,ノイズの多い文書データセットの形式理解におけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2021-06-02T06:51:35Z) - Learning Relation Prototype from Unlabeled Texts for Long-tail Relation
Extraction [84.64435075778988]
本稿では,ラベルのないテキストから関係プロトタイプを学習するための一般的なアプローチを提案する。
我々は、エンティティ間の暗黙的な要因として関係プロトタイプを学習する。
私たちは、New York TimesとGoogle Distant Supervisionの2つの公開データセットで実験を行います。
論文 参考訳(メタデータ) (2020-11-27T06:21:12Z) - Understanding Spatial Relations through Multiple Modalities [78.07328342973611]
オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。
画像中の2つの実体間の暗黙的・明示的な空間的関係を推定するタスクを導入する。
本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。
論文 参考訳(メタデータ) (2020-07-19T01:35:08Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。