論文の概要: MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain
- arxiv url: http://arxiv.org/abs/2310.15569v1
- Date: Tue, 24 Oct 2023 07:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:09:40.461186
- Title: MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain
- Title(参考訳): MuLMS: 材料科学領域における情報抽出のための多層注釈テキストコーパス
- Authors: Timo Pierre Schrader, Matteo Finco, Stefan Gr\"unewald, Felix
Hildebrand, Annemarie Friedrich
- Abstract要約: 材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.7947524927438001
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Keeping track of all relevant recent publications and experimental results
for a research area is a challenging task. Prior work has demonstrated the
efficacy of information extraction models in various scientific areas.
Recently, several datasets have been released for the yet understudied
materials science domain. However, these datasets focus on sub-problems such as
parsing synthesis procedures or on sub-domains, e.g., solid oxide fuel cells.
In this resource paper, we present MuLMS, a new dataset of 50 open-access
articles, spanning seven sub-domains of materials science. The corpus has been
annotated by domain experts with several layers ranging from named entities
over relations to frame structures. We present competitive neural models for
all tasks and demonstrate that multi-task training with existing related
resources leads to benefits.
- Abstract(参考訳): 研究分野に関する最近の出版物や実験結果をすべて追跡することは難しい課題である。
先行研究は、様々な科学分野における情報抽出モデルの有効性を実証した。
最近、未研究の材料科学領域向けにいくつかのデータセットがリリースされた。
しかしながら、これらのデータセットは、パーシング合成手順や固体酸化物燃料電池などのサブドメインといったサブプロブレムに焦点を当てている。
本稿では,材料科学のサブドメイン7つにまたがる50のオープンアクセス記事のデータセットであるmulmsについて述べる。
コーパスはドメインの専門家によって注釈付けされており、名前付きエンティティからフレーム構造へのいくつかのレイヤがある。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - From Text to Insight: Large Language Models for Materials Science Data Extraction [4.08853418443192]
科学知識の大部分は、構造化されていない自然言語に存在する。
構造化データは革新的で体系的な材料設計に不可欠である。
大きな言語モデル(LLM)の出現は、大きな変化を示している。
論文 参考訳(メタデータ) (2024-07-23T22:23:47Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - MASSW: A New Dataset and Benchmark Tasks for AI-Assisted Scientific Workflows [58.56005277371235]
我々は,Multi-Aspect Summarization of ScientificAspectsに関する総合テキストデータセットであるMASSWを紹介する。
MASSWには過去50年間にわたる17の主要なコンピュータサイエンスカンファレンスから152,000以上の査読論文が含まれている。
我々は、この新しいデータセットを用いてベンチマーク可能な、複数の新しい機械学習タスクを通じて、MASSWの有用性を実証する。
論文 参考訳(メタデータ) (2024-06-10T15:19:09Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Reconstructing Materials Tetrahedron: Challenges in Materials Information Extraction [23.489721319567025]
材料科学文献からの自動情報抽出における課題を論じ,定量化し,文書化する。
この情報は、表、テキスト、画像などの複数のフォーマットに分散し、レポートスタイルの統一性はほとんど、あるいは全くない。
本研究は,IEが材料知識基盤を開発する上で,その課題に一貫した形で対処する上で,研究者に刺激を与えるものであることを願っている。
論文 参考訳(メタデータ) (2023-10-12T14:57:24Z) - MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science
Domain [1.209268134212644]
AZ(Argumentative Zone)の分類は学術文書の処理を改善するために提案されている。
我々は、手動で注釈付けされた研究論文50点の新しいデータセットを提示し、リリースする。
論文 参考訳(メタデータ) (2023-07-05T14:55:18Z) - PcMSP: A Dataset for Scientific Action Graphs Extraction from
Polycrystalline Materials Synthesis Procedure Text [1.9573380763700712]
このデータセットは、実験段落から抽出された合成文と、エンティティの言及と文内関係を同時に含んでいる。
PcMSPコーパスの品質を保証する2段階の人間アノテーションとアノテーション間合意研究を行った。
本稿では,4つの自然言語処理タスクを紹介する。文分類,名前付きエンティティ認識,関係分類,エンティティと関係の合同抽出である。
論文 参考訳(メタデータ) (2022-10-22T09:43:54Z) - The SOFC-Exp Corpus and Neural Approaches to Information Extraction in
the Materials Science Domain [11.085048329202335]
我々は, 固体酸化物燃料電池に関する実験に関する情報を, 科学的出版物にマーキングするためのアノテーション・スキームを開発した。
コーパスとアノテーション間の合意研究は、提案されたエンティティ認識の複雑さを実証する。
我々は、新しいデータセットに基づいて対処できる様々なタスクに対して、強力なニューラルネットワークベースのモデルを提示します。
論文 参考訳(メタデータ) (2020-06-04T17:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。