論文の概要: TCN: Table Convolutional Network for Web Table Interpretation
- arxiv url: http://arxiv.org/abs/2102.09460v1
- Date: Wed, 17 Feb 2021 02:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:11:43.584286
- Title: TCN: Table Convolutional Network for Web Table Interpretation
- Title(参考訳): TCN: Web テーブル解釈のためのテーブル畳み込みネットワーク
- Authors: Daheng Wang, Prashant Shiralkar, Colin Lockard, Binxuan Huang, Xin
Luna Dong, Meng Jiang
- Abstract要約: テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
- 参考スコア(独自算出の注目度): 52.32515851633981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Information extraction from semi-structured webpages provides valuable
long-tailed facts for augmenting knowledge graph. Relational Web tables are a
critical component containing additional entities and attributes of rich and
diverse knowledge. However, extracting knowledge from relational tables is
challenging because of sparse contextual information. Existing work linearize
table cells and heavily rely on modifying deep language models such as BERT
which only captures related cells information in the same table. In this work,
we propose a novel relational table representation learning approach
considering both the intra- and inter-table contextual information. On one
hand, the proposed Table Convolutional Network model employs the attention
mechanism to adaptively focus on the most informative intra-table cells of the
same row or column; and, on the other hand, it aggregates inter-table
contextual information from various types of implicit connections between cells
across different tables. Specifically, we propose three novel aggregation
modules for (i) cells of the same value, (ii) cells of the same schema
position, and (iii) cells linked to the same page topic. We further devise a
supervised multi-task training objective for jointly predicting column type and
pairwise column relation, as well as a table cell recovery objective for
pre-training. Experiments on real Web table datasets demonstrate our method can
outperform competitive baselines by +4.8% of F1 for column type prediction and
by +4.1% of F1 for pairwise column relation prediction.
- Abstract(参考訳): 半構造化Webページからの情報抽出は、知識グラフの強化に有用なロングテールな事実を提供する。
リレーショナルWebテーブルは、豊富で多様な知識の追加のエンティティと属性を含む重要なコンポーネントです。
しかし,文脈情報が少ないため,関係表から知識を抽出することは困難である。
既存の作業はテーブルセルを線形化し、同じテーブルで関連するセル情報のみをキャプチャするBERTのような深い言語モデルの修正に大きく依存します。
本研究では,表内情報と表間情報の両方を考慮した新しい関係表表現学習手法を提案する。
一方,提案するテーブル畳み込みネットワークモデルでは,アテンション機構を用いて,同じ行や列の最も情報性の高いテーブル内セルに適応的に焦点を合わせ,その一方で,異なるテーブルをまたがるセル間の様々なタイプの暗黙的接続から,テーブル間のコンテキスト情報を集約する。
具体的には, (i) と同じ値のセル, (ii) 同一のスキーマ位置のセル, (iii) 同一ページのトピックにリンクされたセルに対して, 3つの新しいアグリゲーションモジュールを提案する。
さらに,コラムタイプとペアワイズコラム関係を共同で予測するための教師付きマルチタスクトレーニング目標と,プレトレーニングのためのテーブルセルリカバリ目標を考案する。
実Webテーブルデータセットを用いた実験では,F1の+4.8%,F1の+4.1%,ペアワイズカラム関係予測の+4.1%で競合ベースラインを上回った。
関連論文リスト
- Multi-Cell Decoder and Mutual Learning for Table Structure and Character Recognition [1.2328446298523066]
エンド・ツー・エンドアプローチを改善するために,マルチセルコンテンツデコーダと双方向相互学習機構を提案する。
この効果は2つの大きなデータセットで実証され、実験結果は最先端モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-04-20T04:30:38Z) - TRACE: Table Reconstruction Aligned to Corner and Edges [7.536220920052911]
そこで我々は,テーブルがセルで構成され,各セルがエッジからなる境界で構成されているテーブルの自然特性を解析した。
ボトムアップ方式でテーブルを再構築する新しい手法を提案する。
シンプルな設計はモデルを訓練しやすくし、以前の2段階の手法よりも少ない計算を必要とする。
論文 参考訳(メタデータ) (2023-05-01T02:26:15Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TabularNet: A Neural Network Architecture for Understanding Semantic
Structures of Tabular Data [30.479822289380255]
本稿では,テーブルから空間情報と関係情報を同時に抽出する新しいニューラルネットワークアーキテクチャであるTabularNetを提案する。
リレーショナル情報のために,WordNet木に基づく新しいグラフ構築法を設計し,GCNベースのエンコーダを採用する。
私たちのニューラルネットワークアーキテクチャは、さまざまな理解タスクのための統一されたニューラルネットワークバックボーンであり、マルチタスクシナリオで利用できます。
論文 参考訳(メタデータ) (2021-06-06T11:48:09Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。