論文の概要: Neural Collaborative Graph Machines for Table Structure Recognition
- arxiv url: http://arxiv.org/abs/2111.13359v1
- Date: Fri, 26 Nov 2021 08:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:39:32.586473
- Title: Neural Collaborative Graph Machines for Table Structure Recognition
- Title(参考訳): テーブル構造認識のためのニューラルコラボレーティブグラフマシン
- Authors: Hao Liu, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren
- Abstract要約: 本稿では,階層化された協調ブロックを備えたニューラルコラボレーティブグラフマシン(NCGM)を提案する。
提案したNCGMは、モダリティ内キューの文脈で条件付けられた異なるモダリティの協調パターンを変調可能であることを示す。
- 参考スコア(独自算出の注目度): 18.759018425097747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, table structure recognition has achieved impressive progress with
the help of deep graph models. Most of them exploit single visual cues of
tabular elements or simply combine visual cues with other modalities via early
fusion to reason their graph relationships. However, neither early fusion nor
individually reasoning in terms of multiple modalities can be appropriate for
all varieties of table structures with great diversity. Instead, different
modalities are expected to collaborate with each other in different patterns
for different table cases. In the community, the importance of intra-inter
modality interactions for table structure reasoning is still unexplored. In
this paper, we define it as heterogeneous table structure recognition
(Hetero-TSR) problem. With the aim of filling this gap, we present a novel
Neural Collaborative Graph Machines (NCGM) equipped with stacked collaborative
blocks, which alternatively extracts intra-modality context and models
inter-modality interactions in a hierarchical way. It can represent the
intra-inter modality relationships of tabular elements more robustly, which
significantly improves the recognition performance. We also show that the
proposed NCGM can modulate collaborative pattern of different modalities
conditioned on the context of intra-modality cues, which is vital for
diversified table cases. Experimental results on benchmarks demonstrate our
proposed NCGM achieves state-of-the-art performance and beats other
contemporary methods by a large margin especially under challenging scenarios.
- Abstract(参考訳): 近年,表構造認識は深部グラフモデルの助けを借りて目覚ましい進歩を遂げている。
それらの多くは、表状要素の単一の視覚的手がかりを利用するか、初期の融合を通じて視覚的手がかりを他のモダリティと組み合わせてグラフの関係を推論する。
しかし、初期の融合や多重モダリティの観点からの個別の推論は、多様性の大きい全てのテーブル構造に適切ではない。
代わりに、異なるモダリティは異なるテーブルケースの異なるパターンで互いに協調することが期待される。
地域社会では、表構造推論における内部モダリティ相互作用の重要性はいまだ解明されていない。
本稿では,不均一なテーブル構造認識(Hetero-TSR)問題として定義する。
このギャップを埋めるために,階層的手法でモダリティ内コンテキストを抽出し,モダリティ間インタラクションをモデル化する,階層型コラボレーティブブロックを備えたニューラルコラボレーティブグラフマシン(ncgm)を提案する。
表要素の対話的モダリティ関係をより堅牢に表現できるため、認識性能が大幅に向上する。
また,提案したNCGMは,多彩なテーブルケースに不可欠なモダリティ内キューの文脈で条件付けられた異なるモダリティの協調パターンを変調できることを示す。
評価実験の結果,提案したNCGMは最先端性能を実現し,特に難解シナリオ下では,他の手法を大差で打ち負かした。
関連論文リスト
- LoginMEA: Local-to-Global Interaction Network for Multi-modal Entity Alignment [18.365849722239865]
マルチモーダルなエンティティアライメント(MMEA)は、2つのマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
我々は、ロギンメAと呼ばれるMMEAのための新しいローカル・グローバル・インタラクション・ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-29T01:06:45Z) - GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation [68.63955715643974]
Omnimodal Learning(GTP-4o)のためのモダリティプロンプト不均質グラフ
我々は、Omnimodal Learning(GTP-4o)のための革新的モダリティプロンプト不均質グラフを提案する。
論文 参考訳(メタデータ) (2024-07-08T01:06:13Z) - Histopathology Whole Slide Image Analysis with Heterogeneous Graph
Representation Learning [78.49090351193269]
本稿では,WSI分析のために,異なる種類の核間の相互関係を利用する新しいグラフベースのフレームワークを提案する。
具体的には、WSI を各ノードに "nucleus-type" 属性と各エッジに類似した意味属性を持つ異種グラフとして定式化する。
我々のフレームワークは、様々なタスクに対してかなりのマージンで最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-07-09T14:43:40Z) - Multi-modal Contrastive Representation Learning for Entity Alignment [57.92705405276161]
マルチモーダルなエンティティアライメントは、2つの異なるマルチモーダルな知識グラフ間で等価なエンティティを識別することを目的としている。
マルチモーダルコントラスト学習に基づくエンティティアライメントモデルであるMCLEAを提案する。
特に、MCLEAはまず複数のモダリティから複数の個別表現を学習し、その後、モダリティ内およびモダリティ間相互作用を共同でモデル化するコントラスト学習を行う。
論文 参考訳(メタデータ) (2022-09-02T08:59:57Z) - Bayesian intrinsic groupwise registration via explicit hierarchical
disentanglement [18.374535632681884]
階層的ベイズ推論の手順としてグループ登録を定式化する一般的な枠組みを提案する。
本稿では, 共用構造表現の共用学習を容易にする, 後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後・後
その結果,マルチモーダルなグループ登録をエンドツーエンドで実現するためのフレームワークの有効性が示された。
論文 参考訳(メタデータ) (2022-06-06T06:13:24Z) - Learning Multimodal VAEs through Mutual Supervision [72.77685889312889]
MEMEは、相互監督を通じて暗黙的にモダリティ間の情報を結合する。
我々は、MEMEが、部分的および完全観察スキームの双方で標準メトリクスのベースラインを上回ることを実証する。
論文 参考訳(メタデータ) (2021-06-23T17:54:35Z) - Reinforced Neighborhood Selection Guided Multi-Relational Graph Neural
Networks [68.9026534589483]
RioGNNはReinforceed, recursive, flexible neighborhood selection guided multi-relational Graph Neural Network architectureである。
RioGNNは、各関係の個々の重要性の認識により、説明性を高めた差別的なノード埋め込みを学ぶことができる。
論文 参考訳(メタデータ) (2021-04-16T04:30:06Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z) - COBRA: Contrastive Bi-Modal Representation Algorithm [43.33840912256077]
本稿では,CPC(Contrastive Predictive Coding)とNCE(Noth Contrastive Estimation)のパラダイムにインスパイアされた,2つのモダリティの学習を目的とした新しいフレームワークを提案する。
本研究では,この枠組みがモダリティギャップを大幅に減らし,ロバストでタスクに依存しない共同埋め込み空間を生成することを実証的に示す。
7つのベンチマークのクロスモーダルデータセットにまたがる4つのダウンストリームタスクにおいて、既存の作業よりも優れています。
論文 参考訳(メタデータ) (2020-05-07T18:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。