Fugu-MT 論文翻訳(概要): DiSCoMaT: Distantly Supervised Composition Extraction from Tables in Materials Science Articles

論文の概要: DiSCoMaT: Distantly Supervised Composition Extraction from Tables in Materials Science Articles

arxiv url: http://arxiv.org/abs/2207.01079v4
Date: Sun, 28 Jan 2024 21:14:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 01:03:26.261649
Title: DiSCoMaT: Distantly Supervised Composition Extraction from Tables in Materials Science Articles
Title（参考訳）: DiSCoMaT: 材料科学論文における表からの遠隔監視合成抽出
Authors: Tanishq Gupta, Mohd Zaki, Devanshi Khatsuriya, Kausik Hira, N. M. Anoop Krishnan, Mausam
Abstract要約: 材料科学論文の表から素材の組成を抽出する新しいNLPタスクを定義する。遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。 DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。
参考スコア（独自算出の注目度）: 25.907266860321727
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: A crucial component in the curation of KB for a scientific domain (e.g., materials science, foods & nutrition, fuels) is information extraction from tables in the domain's published research articles. To facilitate research in this direction, we define a novel NLP task of extracting compositions of materials (e.g., glasses) from tables in materials science papers. The task involves solving several challenges in concert, such as tables that mention compositions have highly varying structures; text in captions and full paper needs to be incorporated along with data in tables; and regular languages for numbers, chemical compounds and composition expressions must be integrated into the model. We release a training dataset comprising 4,408 distantly supervised tables, along with 1,475 manually annotated dev and test tables. We also present a strong baseline DISCOMAT, that combines multiple graph neural networks with several task-specific regular expressions, features, and constraints. We show that DISCOMAT outperforms recent table processing architectures by significant margins.
Abstract（参考訳）: 科学分野(例えば、材料科学、食品、栄養学、燃料)のkbのキュレーションにおいて重要な要素は、同分野が発表した研究論文の表からの情報抽出である。この方向の研究を容易にするために、材料科学論文の表から材料の組成(例えば、ガラス)を抽出するnlpタスクを新たに定義する。例えば、構成に言及する表は、非常に多様な構造を持ち、字幕や全紙のテキストは、表のデータとともに組み込まれなければならない、数字、化学化合物、合成表現の正規言語は、モデルに組み込まれなければならない。遠隔操作型テーブル4,408、手動で注釈付けされた開発およびテストテーブル1,475からなるトレーニングデータセットをリリースする。また、複数のグラフニューラルネットワークと複数のタスク固有の正規表現、特徴、制約を組み合わせた、強力なベースラインディスコマットも提示する。 DisCOMATは最近のテーブル処理アーキテクチャよりも大幅に優れていることを示す。

関連論文リスト

Benchmarking Multimodal LLMs on Recognition and Understanding over Chemical Tables [48.39080455781475]
ChemTable(チェムタブル、英: ChemTable)は、実験的な論文から得られた実世界の化学表の大規模なベンチマークである。 ChemTableには、専門家によるアノテートされたセルポリゴン、論理レイアウト、試薬、触媒、収率、グラフィカルコンポーネントを含むドメイン固有のラベルが含まれている。我々は、ChemTable上で、オープンソースモデルとクローズドソースモデルの両方を含む様々な代表的マルチモーダルモデルを評価し、実践的および概念的洞察を伴う一連の知見を報告した。
論文参考訳（メタデータ） (2025-06-13T00:45:41Z)
Bridging Queries and Tables through Entities in Table Retrieval [70.13748256886288]
エンティティは、テキスト検索の文脈でよく研究されているが、テーブル検索におけるその応用についての研究は、顕著に欠如している。本稿では、実体表現に基づく相互作用パラダイムを設計し、エンティティ強化トレーニングフレームワークを提案する。提案するフレームワークはプラグアンドプレイでフレキシブルで,既存のテーブルレトリバーのトレーニングプロセスに統合しやすくする。
論文参考訳（メタデータ） (2025-04-09T03:16:33Z)
SynFinTabs: A Dataset of Synthetic Financial Tables for Information and Table Extraction [1.0624606551524207]
既存のデータセットは、大量の学術論文のために科学的な表にフォーカスすることが多い。現在のデータセットは、しばしば表に含まれる単語とその位置を欠いている。 SynFinTabsは、大規模にラベル付けされた合成財務表のデータセットである。
論文参考訳（メタデータ） (2024-12-05T15:42:59Z)
TabPedia: Towards Comprehensive Visual Table Understanding with Concept Synergy [81.76462101465354]
本稿では,概念相乗効果機構を備えた新しい大型視触覚モデルTabPediaを提案する。この統合されたフレームワークにより、TabPediaはテーブル検出、テーブル構造認識、テーブルクエリ、テーブル質問応答などのVTUタスクをシームレスに統合できる。実世界のシナリオにおけるVTUタスクをよりよく評価するために、新しい総合的なテーブルVQAベンチマークComTQAを構築した。
論文参考訳（メタデータ） (2024-06-03T13:54:05Z)
Schema-Driven Information Extraction from Heterogeneous Tables [37.50854811537401]
本稿では、機械学習論文、化学文献、材料科学雑誌、ウェブページの4つの分野のテーブルからなるベンチマークを示す。我々の実験は、タスク固有のパイプラインやラベルを必要とせずに、驚くほど競争力のあるパフォーマンスが達成できることを示した。
論文参考訳（メタデータ） (2023-05-23T17:58:10Z)
Tables to LaTeX: structure and content extraction from scientific tables [0.848135258677752]
我々は,トランスフォーマーに基づく言語モデリングパラダイムを,科学テーブル構造とコンテンツ抽出に適用する。我々は, 表構造と内容抽出において, 70.35 と 49.69% の正確な一致精度を達成した。
論文参考訳（メタデータ） (2022-10-31T12:08:39Z)
ReSel: N-ary Relation Extraction from Scientific Text and Tables by Learning to Retrieve and Select [53.071352033539526]
学術論文からN-ary関係を抽出する問題について考察する。提案手法であるReSelは,このタスクを2段階のプロシージャに分解する。 3つの科学的情報抽出データセットに対する実験により、ReSelは最先端のベースラインを大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-26T02:28:02Z)
Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents [1.1859913430860336]
この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。 PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。
論文参考訳（メタデータ） (2022-08-23T21:36:01Z)
OmniTab: Pretraining with Natural and Synthetic Data for Few-shot Table-based Question Answering [106.73213656603453]
最小限のアノテーションによるテーブルベースのQAモデルを構築した。本稿では、自然データと合成データの両方を消費する全能事前学習手法を提案する。
論文参考訳（メタデータ） (2022-07-08T01:23:45Z)
Table Retrieval May Not Necessitate Table-specific Model Design [83.27735758203089]
テーブル検索のタスクに焦点をあてて、"テーブル固有のモデル設計はテーブル検索に必要か? 自然質問データセット (NQ-table) の表に基づく分析の結果, 70%以上の症例では構造が無視できる役割を担っていることがわかった。次に、テーブル構造、すなわち補助列/カラム埋め込み、ハードアテンションマスク、ソフトリレーションに基づくアテンションバイアスを明示的にエンコードする3つのモジュールを実験する。いずれも大きな改善は得られず、テーブル固有のモデル設計がテーブル検索に不要である可能性が示唆された。
論文参考訳（メタデータ） (2022-05-19T20:35:23Z)
TabLeX: A Benchmark Dataset for Structure and Content Information Extraction from Scientific Tables [1.4115224153549193]
本稿では,学術論文から生成された表画像からなる大規模ベンチマークデータセットTabLeXを提案する。堅牢なテーブルIEツールの開発を容易にするため、TabLeXにはさまざまなアスペクト比とさまざまなフォントのイメージが含まれている。分析の結果,現状のテーブル抽出モデルの欠点が明らかとなり,単純なテーブル画像でも失敗することが判明した。
論文参考訳（メタデータ） (2021-05-12T05:13:38Z)
A Graph Representation of Semi-structured Data for Web Question Answering [96.46484690047491]
本稿では、半構造化データとそれらの関係の構成要素の体系的分類に基づいて、Webテーブルとリストのグラフ表現を提案する。本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。
論文参考訳（メタデータ） (2020-10-14T04:01:54Z)
GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文参考訳（メタデータ） (2020-09-29T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。