論文の概要: Entity Linking in Tabular Data Needs the Right Attention
- arxiv url: http://arxiv.org/abs/2207.01937v1
- Date: Tue, 5 Jul 2022 10:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 23:30:43.171669
- Title: Entity Linking in Tabular Data Needs the Right Attention
- Title(参考訳): タブラルデータにおけるエンティティリンクは正しい注意を必要とする
- Authors: Miltiadis Marios Katsakioris, Yiwei Zhou, Daniele Masato
- Abstract要約: この作業は、表データ上のEntity Linking(EL)のエンドツーエンドソリューションに焦点を当てている。
注意機構やアテンションマスクを適用することが重要であり、モデルが最も関係のある文脈にのみ対応できることが示される。
Tabular Entity Linking Lite Model (TELL)を導入して,メモリ使用量の一定化を実現している。
TELLはウィキペディアのテーブル上で80.8%の精度を実現している。
- 参考スコア(独自算出の注目度): 0.6445605125467573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the semantic meaning of tabular data requires Entity Linking
(EL), in order to associate each cell value to a real-world entity in a
Knowledge Base (KB). In this work, we focus on end-to-end solutions for EL on
tabular data that do not rely on fact lookup in the target KB. Tabular data
contains heterogeneous and sparse context, including column headers, cell
values and table captions. We experiment with various models to generate a
vector representation for each cell value to be linked. Our results show that
it is critical to apply an attention mechanism as well as an attention mask, so
that the model can only attend to the most relevant context and avoid
information dilution. The most relevant context includes: same-row cells,
same-column cells, headers and caption. Computational complexity, however,
grows quadratically with the size of tabular data for such a complex model. We
achieve constant memory usage by introducing a Tabular Entity Linking Lite
model (TELL ) that generates vector representation for a cell based only on its
value, the table headers and the table caption. TELL achieves 80.8% accuracy on
Wikipedia tables, which is only 0.1% lower than the state-of-the-art model with
quadratic memory usage.
- Abstract(参考訳): 表形式のデータの意味を理解するには、各セル値を知識ベース(KB)内の現実のエンティティに関連付けるために、エンティティリンク(EL)が必要である。
本研究では,ターゲットKBのファクトルックアップに依存しない表形式のデータに対して,ELのエンドツーエンドソリューションに焦点を当てる。
タブラルデータは、カラムヘッダ、セル値、テーブルキャプションを含む異質でスパースなコンテキストを含む。
様々なモデルを用いて各セル値がリンクされるベクトル表現を生成する実験を行った。
その結果,注意マスクと同様に注意機構を適用することが重要であり,モデルが最も関連する文脈にのみ対応でき,情報希薄化を回避することが重要であることがわかった。
最も関連するコンテキストは、同列細胞、同列細胞、ヘッダ、キャプションである。
しかし計算の複雑さは、そのような複雑なモデルのために表データのサイズで二次的に増加する。
我々は,その値,テーブルヘッダ,テーブルキャプションのみに基づいてセルのベクトル表現を生成する表型エンティティlinking liteモデル(tell)を導入することで,一定のメモリ使用を実現する。
TELLはウィキペディアのテーブル上で80.8%の精度を実現している。
関連論文リスト
- LaTable: Towards Large Tabular Models [63.995130144110156]
タブラル生成基盤モデルは、異なるデータセットの不均一な特徴空間のために構築が困難である。
LaTableは、これらの課題に対処し、異なるデータセットでトレーニング可能な、新しい拡散モデルである。
LaTableは、分散生成のベースラインよりも優れており、微調整されたLaTableは、より少ないサンプルで分散データセットをより良く生成できる。
論文 参考訳(メタデータ) (2024-06-25T16:03:50Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z) - Table Structure Recognition with Conditional Attention [13.976736586808308]
テーブル構造認識(TSR)問題は、テーブルの構造を認識し、非構造化テーブルを構造化および機械可読フォーマットに変換することを目的としている。
本研究では, 複雑なテーブル構造を, 頂点と辺がそれぞれ細胞を表し, 細胞間の関連を表わすグラフで表すことができると仮定する。
実験の結果,セル境界ボックスのアライメントは,マイクロ平均F1スコアが0.915から0.963に,マクロ平均F1スコアが0.787から0.923に向上することがわかった。
論文 参考訳(メタデータ) (2022-03-08T02:44:58Z) - UniRE: A Unified Label Space for Entity Relation Extraction [67.53850477281058]
合同エンティティ関係抽出モデルでは、2つのサブタスクに対して2つの分離ラベル空間を設定する。
この設定は、エンティティとリレーション間の情報相互作用を妨げる可能性があると我々は主張する。
本研究では,2つのサブタスクのラベル空間における異なる処理を除去することを提案する。
論文 参考訳(メタデータ) (2021-07-09T08:09:37Z) - SpreadsheetCoder: Formula Prediction from Semi-structured Context [70.41579328458116]
行ベースと列ベースの両方のフォーマットで表されるコンテキストを表現するために,BERTベースのモデルアーキテクチャを提案する。
我々はスプレッドシートの大きなデータセットでモデルをトレーニングし、SpreadsheetCoderが42.51%の予測精度でトップ1の予測を達成できることを実証した。
ルールベースのシステムと比較すると、SpreadsheetCoder 82%は、Google Sheetsで公式を作成する上で、より多くのユーザを支援する。
論文 参考訳(メタデータ) (2021-06-26T11:26:27Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - TCN: Table Convolutional Network for Web Table Interpretation [52.32515851633981]
テーブル内情報とテーブル間情報の両方を考慮した新しいテーブル表現学習手法を提案する。
カラムタイプ予測ではf1の4.8%、カラム対関係予測ではf1の4.1%で競合ベースラインを上回ることができる。
論文 参考訳(メタデータ) (2021-02-17T02:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。