論文の概要: MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain
- arxiv url: http://arxiv.org/abs/2310.15569v1
- Date: Tue, 24 Oct 2023 07:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:09:40.461186
- Title: MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain
- Title(参考訳): MuLMS: 材料科学領域における情報抽出のための多層注釈テキストコーパス
- Authors: Timo Pierre Schrader, Matteo Finco, Stefan Gr\"unewald, Felix
Hildebrand, Annemarie Friedrich
- Abstract要約: 材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.7947524927438001
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Keeping track of all relevant recent publications and experimental results
for a research area is a challenging task. Prior work has demonstrated the
efficacy of information extraction models in various scientific areas.
Recently, several datasets have been released for the yet understudied
materials science domain. However, these datasets focus on sub-problems such as
parsing synthesis procedures or on sub-domains, e.g., solid oxide fuel cells.
In this resource paper, we present MuLMS, a new dataset of 50 open-access
articles, spanning seven sub-domains of materials science. The corpus has been
annotated by domain experts with several layers ranging from named entities
over relations to frame structures. We present competitive neural models for
all tasks and demonstrate that multi-task training with existing related
resources leads to benefits.
- Abstract(参考訳): 研究分野に関する最近の出版物や実験結果をすべて追跡することは難しい課題である。
先行研究は、様々な科学分野における情報抽出モデルの有効性を実証した。
最近、未研究の材料科学領域向けにいくつかのデータセットがリリースされた。
しかしながら、これらのデータセットは、パーシング合成手順や固体酸化物燃料電池などのサブドメインといったサブプロブレムに焦点を当てている。
本稿では,材料科学のサブドメイン7つにまたがる50のオープンアクセス記事のデータセットであるmulmsについて述べる。
コーパスはドメインの専門家によって注釈付けされており、名前付きエンティティからフレーム構造へのいくつかのレイヤがある。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
関連論文リスト
- SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [65.47003941584244]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Reconstructing Materials Tetrahedron: Challenges in Materials
Information Extraction [25.200852480951454]
材料科学文献からの自動情報抽出における課題を論じ,定量化し,文書化する。
この情報は、表、テキスト、画像などの複数のフォーマットに分散し、レポートスタイルの統一性はほとんど、あるいは全くない。
この研究が研究者に、一貫性のある方法で課題に対処するように促すことを願っています。
論文 参考訳(メタデータ) (2023-10-12T14:57:24Z) - Lessons in Reproducibility: Insights from NLP Studies in Materials
Science [4.205692673448206]
我々は,これらの研究を観点から理解し,材料情報学の分野に対するその大きな影響を,それらに批判的でなく認識することを目的としている。
本研究は, 両論文とも, 徹底した, 丁寧な, ドキュメント化され, モデル評価のための明確なガイダンスが得られたことを示唆する。
著作権制限が許すトレーニングデータへのアクセス、モデルアーキテクチャとトレーニングプロセスの透明性の向上、ソフトウェア依存バージョン仕様など、改善すべき領域を強調します。
論文 参考訳(メタデータ) (2023-07-28T18:36:42Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science
Domain [1.209268134212644]
AZ(Argumentative Zone)の分類は学術文書の処理を改善するために提案されている。
我々は、手動で注釈付けされた研究論文50点の新しいデータセットを提示し、リリースする。
論文 参考訳(メタデータ) (2023-07-05T14:55:18Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - PcMSP: A Dataset for Scientific Action Graphs Extraction from
Polycrystalline Materials Synthesis Procedure Text [1.9573380763700712]
このデータセットは、実験段落から抽出された合成文と、エンティティの言及と文内関係を同時に含んでいる。
PcMSPコーパスの品質を保証する2段階の人間アノテーションとアノテーション間合意研究を行った。
本稿では,4つの自然言語処理タスクを紹介する。文分類,名前付きエンティティ認識,関係分類,エンティティと関係の合同抽出である。
論文 参考訳(メタデータ) (2022-10-22T09:43:54Z) - Neural Content Extraction for Poster Generation of Scientific Papers [84.30128728027375]
科学論文のポスター生成の問題は未解明である。
これまでの研究は主にポスターレイアウトとパネル構成に重点を置いていたが、コンテンツ抽出の重要性は無視された。
ポスターパネルのテキスト要素と視覚要素の両方を得るために,紙セクションのテキスト,図形,テーブルを同時に抽出するニューラル抽出モデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T01:19:37Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - The SOFC-Exp Corpus and Neural Approaches to Information Extraction in
the Materials Science Domain [11.085048329202335]
我々は, 固体酸化物燃料電池に関する実験に関する情報を, 科学的出版物にマーキングするためのアノテーション・スキームを開発した。
コーパスとアノテーション間の合意研究は、提案されたエンティティ認識の複雑さを実証する。
我々は、新しいデータセットに基づいて対処できる様々なタスクに対して、強力なニューラルネットワークベースのモデルを提示します。
論文 参考訳(メタデータ) (2020-06-04T17:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。