論文の概要: DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles
- arxiv url: http://arxiv.org/abs/2207.01079v4
- Date: Sun, 28 Jan 2024 21:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 01:03:26.261649
- Title: DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Materials Science Articles
- Title(参考訳): DiSCoMaT: 材料科学論文における表からの遠隔監視合成抽出
- Authors: Tanishq Gupta, Mohd Zaki, Devanshi Khatsuriya, Kausik Hira, N. M.
Anoop Krishnan, Mausam
- Abstract要約: 材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 25.907266860321727
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A crucial component in the curation of KB for a scientific domain (e.g.,
materials science, foods & nutrition, fuels) is information extraction from
tables in the domain's published research articles. To facilitate research in
this direction, we define a novel NLP task of extracting compositions of
materials (e.g., glasses) from tables in materials science papers. The task
involves solving several challenges in concert, such as tables that mention
compositions have highly varying structures; text in captions and full paper
needs to be incorporated along with data in tables; and regular languages for
numbers, chemical compounds and composition expressions must be integrated into
the model. We release a training dataset comprising 4,408 distantly supervised
tables, along with 1,475 manually annotated dev and test tables. We also
present a strong baseline DISCOMAT, that combines multiple graph neural
networks with several task-specific regular expressions, features, and
constraints. We show that DISCOMAT outperforms recent table processing
architectures by significant margins.
- Abstract(参考訳): 科学分野(例えば、材料科学、食品、栄養学、燃料)のkbのキュレーションにおいて重要な要素は、同分野が発表した研究論文の表からの情報抽出である。
この方向の研究を容易にするために、材料科学論文の表から材料の組成(例えば、ガラス)を抽出するnlpタスクを新たに定義する。
例えば、構成に言及する表は、非常に多様な構造を持ち、字幕や全紙のテキストは、表のデータとともに組み込まれなければならない、数字、化学化合物、合成表現の正規言語は、モデルに組み込まれなければならない。
遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。
また、複数のグラフニューラルネットワークと複数のタスク固有の正規表現、特徴、制約を組み合わせた、強力なベースラインディスコマットも提示する。
DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
関連論文リスト
- TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [51.23025356179886]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
我々は、約9000のQAペアを備えた新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - Tables to LaTeX: structure and content extraction from scientific tables [0.848135258677752]
我々は,トランスフォーマーに基づく言語モデリングパラダイムを,科学テーブル構造とコンテンツ抽出に適用する。
我々は, 表構造と内容抽出において, 70.35 と 49.69% の正確な一致精度を達成した。
論文 参考訳(メタデータ) (2022-10-31T12:08:39Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Graph Neural Networks and Representation Embedding for Table Extraction
in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。
PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-08-23T21:36:01Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TabLeX: A Benchmark Dataset for Structure and Content Information
Extraction from Scientific Tables [1.4115224153549193]
本稿では,学術論文から生成された表画像からなる大規模ベンチマークデータセットTabLeXを提案する。
堅牢なテーブルIEツールの開発を容易にするため、TabLeXにはさまざまなアスペクト比とさまざまなフォントのイメージが含まれている。
分析の結果,現状のテーブル抽出モデルの欠点が明らかとなり,単純なテーブル画像でも失敗することが判明した。
論文 参考訳(メタデータ) (2021-05-12T05:13:38Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。