論文の概要: DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Material Science Articles
- arxiv url: http://arxiv.org/abs/2207.01079v1
- Date: Sun, 3 Jul 2022 17:11:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 16:31:00.379311
- Title: DiSCoMaT: Distantly Supervised Composition Extraction from Tables in
Material Science Articles
- Title(参考訳): DiSCoMaT: 材料科学論文における表からの遠隔監視合成抽出
- Authors: Tanishq Gupta, Mohd Zaki, N. M. Anoop Krishnan, Mausam
- Abstract要約: 既存のテーブル抽出器は、表の構造や形式に関する事前の知識を前提としており、科学的な表では知られていないかもしれない。
まず、材料科学研究者が、様々なテーブルスタイルで類似した構成をまとめているのを観察する。
4,408の遠隔監視テーブルと1,475の手動注釈付き開発およびテストテーブルからなるトレーニングデータセットを作成しました。
我々は、KBoMaTが最近のテーブル処理アーキテクチャを著しく上回っていることを示す。
- 参考スコア(独自算出の注目度): 12.43929192096703
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A crucial component in the curation of KB for a scientific domain is
information extraction from tables in the domain's published articles -- tables
carry important information (often numeric), which must be adequately extracted
for a comprehensive machine understanding of an article. Existing table
extractors assume prior knowledge of table structure and format, which may not
be known in scientific tables. We study a specific and challenging table
extraction problem: extracting compositions of materials (e.g., glasses,
alloys). We first observe that material science researchers organize similar
compositions in a wide variety of table styles, necessitating an intelligent
model for table understanding and composition extraction. Consequently, we
define this novel task as a challenge for the ML community and create a
training dataset comprising 4,408 distantly supervised tables, along with 1,475
manually annotated dev and test tables. We also present DiSCoMaT, a strong
baseline geared towards this specific task, which combines multiple graph
neural networks with several task-specific regular expressions, features, and
constraints. We show that DiSCoMaT outperforms recent table processing
architectures by significant margins.
- Abstract(参考訳): 科学領域におけるkbのキュレーションにおける重要な要素は、ドメインの公開論文の表からの情報抽出である -- テーブルは重要な情報(しばしば数値)を持ち、記事の包括的な機械理解のために適切に抽出されなければならない。
既存の表抽出器は、科学的な表では知られていないテーブル構造とフォーマットの事前知識を前提としている。
本研究では, 材料(ガラス, 合金など)の組成を抽出する, 具体的なテーブル抽出問題について検討する。
まず, 材料科学研究者は, 表理解と構成抽出にインテリジェントなモデルを必要とする, 様々なテーブルスタイルで類似した構成を整理する。
その結果,この新たなタスクをMLコミュニティの課題として定義し,4,408の遠隔教師付きテーブルと1,475の手動アノテートとテストテーブルからなるトレーニングデータセットを作成する。
また、複数のグラフニューラルネットワークとタスク固有の正規表現、特徴、制約を組み合わせた、この特定のタスクを指向した強力なベースラインであるDiSCoMaTを提案する。
DiSCoMaTは最近のテーブル処理アーキテクチャよりも大幅に優れていた。
関連論文リスト
- TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。
この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。
実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文 参考訳(メタデータ) (2024-06-03T13:54:05Z) - Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。
我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文 参考訳(メタデータ) (2023-05-23T17:58:10Z) - Tables to LaTeX: structure and content extraction from scientific tables [0.848135258677752]
我々は,トランスフォーマーに基づく言語モデリングパラダイムを,科学テーブル構造とコンテンツ抽出に適用する。
我々は, 表構造と内容抽出において, 70.35 と 49.69% の正確な一致精度を達成した。
論文 参考訳(メタデータ) (2022-10-31T12:08:39Z) - ReSel: N-ary Relation Extraction from Scientific Text and Tables by
Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。
提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。
3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-10-26T02:28:02Z) - Graph Neural Networks and Representation Embedding for Table Extraction
in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。
PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2022-08-23T21:36:01Z) - OmniTab: Pretraining with Natural and Synthetic Data for Few-shot
Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。
本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-07-08T01:23:45Z) - Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か?
自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。
次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。
いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-05-19T20:35:23Z) - TabLeX: A Benchmark Dataset for Structure and Content Information
Extraction from Scientific Tables [1.4115224153549193]
本稿では,学術論文から生成された表画像からなる大規模ベンチマークデータセットTabLeXを提案する。
堅牢なテーブルIEツールの開発を容易にするため、TabLeXにはさまざまなアスペクト比とさまざまなフォントのイメージが含まれている。
分析の結果,現状のテーブル抽出モデルの欠点が明らかとなり,単純なテーブル画像でも失敗することが判明した。
論文 参考訳(メタデータ) (2021-05-12T05:13:38Z) - A Graph Representation of Semi-structured Data for Web Question
Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。
本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文 参考訳(メタデータ) (2020-10-14T04:01:54Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。