論文の概要: Tab2Know: Building a Knowledge Base from Tables in Scientific Papers
- arxiv url: http://arxiv.org/abs/2107.13306v1
- Date: Wed, 28 Jul 2021 11:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 14:02:12.934515
- Title: Tab2Know: Building a Knowledge Base from Tables in Scientific Papers
- Title(参考訳): Tab2Know: 科学論文の表から知識ベースを構築する
- Authors: Benno Kruit, Hongyu He, Jacopo Urbani
- Abstract要約: 本稿では,学術論文の表から知識ベースを構築するための,新たなエンドツーエンドシステムであるTab2Knowを紹介する。
統計に基づく分類器と論理に基づく推論の両方を利用するパイプラインを提案する。
コンピュータサイエンス分野における論文のコーパスを用いたアプローチの実証評価は,満足度を回復した。
- 参考スコア(独自算出の注目度): 6.514665180383298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tables in scientific papers contain a wealth of valuable knowledge for the
scientific enterprise. To help the many of us who frequently consult this type
of knowledge, we present Tab2Know, a new end-to-end system to build a Knowledge
Base (KB) from tables in scientific papers. Tab2Know addresses the challenge of
automatically interpreting the tables in papers and of disambiguating the
entities that they contain. To solve these problems, we propose a pipeline that
employs both statistical-based classifiers and logic-based reasoning. First,
our pipeline applies weakly supervised classifiers to recognize the type of
tables and columns, with the help of a data labeling system and an ontology
specifically designed for our purpose. Then, logic-based reasoning is used to
link equivalent entities (via sameAs links) in different tables. An empirical
evaluation of our approach using a corpus of papers in the Computer Science
domain has returned satisfactory performance. This suggests that ours is a
promising step to create a large-scale KB of scientific knowledge.
- Abstract(参考訳): 科学論文の表には、科学企業にとって貴重な知識がたくさん含まれている。
この種の知識を頻繁に参照する人々を支援するため、科学論文の表から知識ベース(KB)を構築するための新しいエンドツーエンドシステムであるTab2Knowを紹介します。
Tab2Knowは、論文でテーブルを自動的に解釈し、それらを含むエンティティを曖昧にするという課題に対処する。
これらの問題を解決するため,統計的分類器と論理的推論を併用したパイプラインを提案する。
まず、当社のパイプラインでは、データラベリングシステムと目的のために特別に設計されたオントロジーの助けを借りて、テーブルと列のタイプを認識するために、弱い教師付き分類器を適用しています。
次に、ロジックベースの推論を使用して、異なるテーブルで( sameAs リンクを介して)等価エンティティをリンクします。
コンピュータサイエンス分野における論文のコーパスを用いたアプローチの実証評価は,満足度を回復した。
これは我々の研究が、大規模なKBの科学知識を生み出すための有望なステップであることを示唆している。
関連論文リスト
- Making Pre-trained Language Models Great on Tabular Prediction [50.70574370855663]
ディープニューラルネットワーク(DNN)の転送性は、画像および言語処理において著しく進歩している。
本稿では,表型データ予測のための訓練済みLMであるTP-BERTaを提案する。
新たな相対等級トークン化では、スカラー数値の特徴値を細分化した高次元トークンに変換し、特徴値と対応する特徴名を統合する。
論文 参考訳(メタデータ) (2024-03-04T08:38:56Z) - A Practical Entity Linking System for Tables in Scientific Literature [2.093510158982825]
本稿では,Wikidataナレッジベースにおいて,エンティティをアイテムにリンクする汎用システムを提案する。
特に、新型コロナウイルス関連科学文献から抽出されたテーブルに埋め込まれたエンティティについて、ドメイン固有のエンティティをリンクするために、このシステムをどのように適用するかを説明します。
論文 参考訳(メタデータ) (2023-06-12T01:40:57Z) - Deep learning for table detection and structure recognition: A survey [49.09628624903334]
本調査の目的は,テーブル検出の分野での大きな進展を深く理解することである。
この分野における古典的アプリケーションと新しいアプリケーションの両方について分析する。
既存のモデルのデータセットとソースコードは、読者にこの膨大な文献のコンパスを提供するために組織されている。
論文 参考訳(メタデータ) (2022-11-15T19:42:27Z) - Data augmentation on graphs for table type classification [1.1859913430860336]
グラフニューラルネットワークを用いてテーブルの分類を行い、使用中のメッセージパッシングアルゴリズムのテーブル構造を利用する。
我々は,グラフベースの表表現に適したデータ拡張手法を提案することで,有望な予備結果を実現する。
論文 参考訳(メタデータ) (2022-08-23T21:54:46Z) - Graph Neural Networks and Representation Embedding for Table Extraction
in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。
PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-08-23T21:36:01Z) - TGRNet: A Table Graph Reconstruction Network for Table Structure
Recognition [76.06530816349763]
本稿では,表構造認識のためのエンドツーエンドのトレーニング可能な表グラフ再構成ネットワーク(TGRNet)を提案する。
具体的には,異なる細胞の空間的位置と論理的位置を共同で予測するために,細胞検出枝と細胞論理的位置分岐の2つの主枝を有する。
論文 参考訳(メタデータ) (2021-06-20T01:57:05Z) - Multi-Type-TD-TSR -- Extracting Tables from Document Images using a
Multi-stage Pipeline for Table Detection and Table Structure Recognition:
from OCR to Structured Table Representations [63.98463053292982]
テーブルの認識は、テーブル検出とテーブル構造認識という2つの主要なタスクから構成される。
最近の研究は、テーブル構造認識のタスクにトランスファーラーニングを併用したディープラーニングアプローチへの明確な傾向を示している。
本稿では,テーブル認識問題に対するエンドツーエンドのソリューションを提供するMulti-Type-TD-TSRというマルチステージパイプラインを提案する。
論文 参考訳(メタデータ) (2021-05-23T21:17:18Z) - TUTA: Tree-based Transformers for Generally Structured Table
Pre-training [47.181660558590515]
テーブル理解に関する最近の試みは、主にリレーショナルテーブルに焦点を当てているが、他の一般的なテーブル構造を見落としている。
本稿では、一般に構造化されたテーブルを理解するための統合事前学習アーキテクチャであるTUTAを提案する。
TUTAは非常に効果的で、広く研究されている5つのデータセットの最先端を実現している。
論文 参考訳(メタデータ) (2020-10-21T13:22:31Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - Novel Entity Discovery from Web Tables [21.16349961050804]
Web上のテーブルを活用して、新しいエンティティ、プロパティ、関係を見つけます。
提案手法は,in-KB (known')エンティティの外部情報だけでなく,新規なエイリアスも識別する。
論文 参考訳(メタデータ) (2020-02-01T13:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。