論文の概要: Relation Extraction from Tables using Artificially Generated Metadata
- arxiv url: http://arxiv.org/abs/2108.10750v1
- Date: Tue, 24 Aug 2021 14:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 15:46:07.685069
- Title: Relation Extraction from Tables using Artificially Generated Metadata
- Title(参考訳): 人工生成メタデータを用いた表からの関係抽出
- Authors: Gaurav singh, Siffi Singh, Joshua Wong, Amir Saffari
- Abstract要約: 本稿では,このメタデータのいくつかを人工的に生成する手法を提案する。
これにより、F1スコアの9%-45%が、絶対的に2つのデータセットで改善される。
- 参考スコア(独自算出の注目度): 4.8627638794427765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relation Extraction (RE) from tables is the task of identifying relations
between pairs of columns. Generally, RE models for this task require labelled
tables for training. Luckily, labelled tables can also be generated
artificially from a Knowledge Graph (KG), which makes the cost to acquire them
much lower in comparison to manual annotations. However, these tables have one
drawback compared to real tables, which is that they lack associated metadata,
such as column-headers, captions, etc. This is because synthetic tables are
created out of KGs that do not store such metadata. Unfortunately, metadata can
provide strong signals for RE from tables. To address this issue, we propose
methods to artificially create some of this metadata for synthetic tables. We
then experiment with a RE model that uses artificial metadata as input. Our
empirical results show that this leads to an improvement of 9\%-45\% in F1
score, in absolute terms, over 2 tabular datasets.
- Abstract(参考訳): テーブルからの関係抽出(RE)は、列のペア間の関係を識別するタスクである。
一般的に、このタスクのREモデルはトレーニングのためにラベル付きテーブルを必要とする。
幸いなことに、ラベル付きテーブルは知識グラフ(KG)から人工的に生成することもできるため、手作業によるアノテーションよりもはるかにコストが低い。
しかし、これらのテーブルは実際のテーブルと比較して1つの欠点があり、コラムヘッドやキャプションといった関連するメタデータが欠けている。
これは、合成テーブルがメタデータを格納しないKGから生成されるためである。
残念ながら、メタデータはテーブルからのreに対する強力なシグナルを提供することができる。
この問題に対処するため,合成表のメタデータを人工的に生成する手法を提案する。
次に、人工メタデータを入力として使用するREモデルを実験する。
実験の結果,F1スコアの9\%-45\%が絶対的に2つの表付きデータセットで改善されることがわかった。
関連論文リスト
- SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction [1.0624606551524207]
既存のデータセットは、大量の学術論文のために科学的な表にフォーカスすることが多い。
現在のデータセットは、しばしば表に含まれる単語とその位置を欠いている。
SynFinTabsは、大規模にラベル付けされた合成財務表のデータセットである。
論文 参考訳(メタデータ) (2024-12-05T15:42:59Z) - ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models [58.34560740973768]
本稿では,言語モデル(LM)を利用して文献レビュー表を生成するフレームワークを提案する。
ArXiv論文から抽出された2,228の文献レビューテーブルの新しいデータセットは、合計で7,542の論文を合成する。
我々は、LMが参照テーブルを再構築する能力を評価し、追加のコンテキストからこのタスクの利点を見出す。
論文 参考訳(メタデータ) (2024-10-25T18:31:50Z) - TableRAG: Million-Token Table Understanding with Language Models [53.039560091592215]
TableRAG(TableRAG)は、LMベースのテーブル理解用に特別に設計された検索拡張生成(RAG)フレームワークである。
TableRAGは、スキーマとセル検索を組み合わせたクエリ拡張を活用して、LMにそれを提供する前に重要な情報をピンポイントする。
以上の結果から,TableRAGは検索精度が向上し,大規模テーブル理解における最先端性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-10-07T04:15:02Z) - REaLTabFormer: Generating Realistic Relational and Tabular Data using
Transformers [0.0]
本稿では,合成データ生成モデルであるREaLTabFormer(Realistic and Tabular Transformer)を紹介する。
まず、自己回帰GPT-2モデルを用いて親テーブルを生成し、その後、シーケンス・ツー・シーケンスモデルを用いて親テーブル上で条件付けられた関係データセットを生成する。
実世界のデータセットを用いた実験では、REaLTabFormerはモデルベースラインよりもリレーショナル構造をよりよくキャプチャする。
論文 参考訳(メタデータ) (2023-02-04T00:32:50Z) - ReasTAP: Injecting Table Reasoning Skills During Pre-training via
Synthetic Reasoning Examples [15.212332890570869]
複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すためにReasTAPを開発した。
ReasTAPはすべてのベンチマークで最新のパフォーマンスを実現し、低リソース設定で大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-22T07:04:02Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - TabEAno: Table to Knowledge Graph Entity Annotation [7.451544182579802]
本稿では,テーブル行を知識グラフエンティティに意味論的にアノテートするための新しいアプローチであるTabEAnoを提案する。
表の同じ行の2つの閉セル間の知識グラフに既存の論理的関係が存在するという仮定に基づいて、「2セル」のルックアップ戦略を導入する。
アプローチの単純さにもかかわらず、TabEAnoは2つの標準データセットにおけるアートアプローチの状態を上回ります。
論文 参考訳(メタデータ) (2020-10-05T07:39:02Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。