論文の概要: The SOFC-Exp Corpus and Neural Approaches to Information Extraction in
the Materials Science Domain
- arxiv url: http://arxiv.org/abs/2006.03039v1
- Date: Thu, 4 Jun 2020 17:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:17:44.855528
- Title: The SOFC-Exp Corpus and Neural Approaches to Information Extraction in
the Materials Science Domain
- Title(参考訳): 材料科学領域におけるSOFC-Expコーパスと情報抽出へのニューラルアプローチ
- Authors: Annemarie Friedrich and Heike Adel and Federico Tomazic and Johannes
Hingerl and Renou Benteau and Anika Maruscyk and Lukas Lange
- Abstract要約: 我々は, 固体酸化物燃料電池に関する実験に関する情報を, 科学的出版物にマーキングするためのアノテーション・スキームを開発した。
コーパスとアノテーション間の合意研究は、提案されたエンティティ認識の複雑さを実証する。
我々は、新しいデータセットに基づいて対処できる様々なタスクに対して、強力なニューラルネットワークベースのモデルを提示します。
- 参考スコア(独自算出の注目度): 11.085048329202335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new challenging information extraction task in the
domain of materials science. We develop an annotation scheme for marking
information on experiments related to solid oxide fuel cells in scientific
publications, such as involved materials and measurement conditions. With this
paper, we publish our annotation guidelines, as well as our SOFC-Exp corpus
consisting of 45 open-access scholarly articles annotated by domain experts. A
corpus and an inter-annotator agreement study demonstrate the complexity of the
suggested named entity recognition and slot filling tasks as well as high
annotation quality. We also present strong neural-network based models for a
variety of tasks that can be addressed on the basis of our new data set. On all
tasks, using BERT embeddings leads to large performance gains, but with
increasing task complexity, adding a recurrent neural network on top seems
beneficial. Our models will serve as competitive baselines in future work, and
analysis of their performance highlights difficult cases when modeling the data
and suggests promising research directions.
- Abstract(参考訳): 本稿では,材料科学分野における新たな課題情報抽出課題を提案する。
本研究では,固体酸化物燃料電池に関する実験に関する情報を,材料や測定条件などの科学論文にマークするためのアノテーションスキームを開発した。
本稿では,本ガイドラインと,ドメインの専門家が注釈した45のオープンアクセス学術論文からなるSOFC-Expコーパスを公表する。
コーパスとアノテーション間合意研究は、提案されたエンティティ認識とスロット充足タスクの複雑さと高いアノテーション品質を実証する。
我々はまた、新しいデータセットに基づいて対処できる様々なタスクのための強力なニューラルネットワークベースのモデルも提示する。
すべてのタスクにおいて、BERT埋め込みを使用すると、パフォーマンスが大きく向上するが、タスクの複雑さが増すため、上に繰り返しニューラルネットワークを追加することは有益である。
我々のモデルは将来の作業において競争力のあるベースラインとして機能し、そのパフォーマンスの分析はデータのモデリングの難しさを浮き彫りにし、将来有望な研究方向性を示唆する。
関連論文リスト
- ACLSum: A New Dataset for Aspect-based Summarization of Scientific
Publications [10.529898520273063]
ACLSumは、ドメインの専門家によって慎重に作成され、評価される新しい要約データセットである。
以前のデータセットとは対照的に、ACLSumは科学論文のマルチアスペクト要約を容易にする。
論文 参考訳(メタデータ) (2024-03-08T13:32:01Z) - Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain [0.7947524927438001]
材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-24T07:23:46Z) - Lessons in Reproducibility: Insights from NLP Studies in Materials
Science [4.205692673448206]
我々は,これらの研究を観点から理解し,材料情報学の分野に対するその大きな影響を,それらに批判的でなく認識することを目的としている。
本研究は, 両論文とも, 徹底した, 丁寧な, ドキュメント化され, モデル評価のための明確なガイダンスが得られたことを示唆する。
著作権制限が許すトレーニングデータへのアクセス、モデルアーキテクチャとトレーニングプロセスの透明性の向上、ソフトウェア依存バージョン仕様など、改善すべき領域を強調します。
論文 参考訳(メタデータ) (2023-07-28T18:36:42Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - ENT-DESC: Entity Description Generation by Exploring Knowledge Graph [53.03778194567752]
実際には、出力記述が最も重要な知識のみをカバーするため、入力知識は十分以上である可能性がある。
我々は、KG-to-textにおけるこのような実践的なシナリオの研究を容易にするために、大規模で挑戦的なデータセットを導入する。
本稿では,元のグラフ情報をより包括的に表現できるマルチグラフ構造を提案する。
論文 参考訳(メタデータ) (2020-04-30T14:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。