論文の概要: The SOFC-Exp Corpus and Neural Approaches to Information Extraction in
the Materials Science Domain
- arxiv url: http://arxiv.org/abs/2006.03039v1
- Date: Thu, 4 Jun 2020 17:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:17:44.855528
- Title: The SOFC-Exp Corpus and Neural Approaches to Information Extraction in
the Materials Science Domain
- Title(参考訳): 材料科学領域におけるSOFC-Expコーパスと情報抽出へのニューラルアプローチ
- Authors: Annemarie Friedrich and Heike Adel and Federico Tomazic and Johannes
Hingerl and Renou Benteau and Anika Maruscyk and Lukas Lange
- Abstract要約: 我々は, 固体酸化物燃料電池に関する実験に関する情報を, 科学的出版物にマーキングするためのアノテーション・スキームを開発した。
コーパスとアノテーション間の合意研究は、提案されたエンティティ認識の複雑さを実証する。
我々は、新しいデータセットに基づいて対処できる様々なタスクに対して、強力なニューラルネットワークベースのモデルを提示します。
- 参考スコア(独自算出の注目度): 11.085048329202335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a new challenging information extraction task in the
domain of materials science. We develop an annotation scheme for marking
information on experiments related to solid oxide fuel cells in scientific
publications, such as involved materials and measurement conditions. With this
paper, we publish our annotation guidelines, as well as our SOFC-Exp corpus
consisting of 45 open-access scholarly articles annotated by domain experts. A
corpus and an inter-annotator agreement study demonstrate the complexity of the
suggested named entity recognition and slot filling tasks as well as high
annotation quality. We also present strong neural-network based models for a
variety of tasks that can be addressed on the basis of our new data set. On all
tasks, using BERT embeddings leads to large performance gains, but with
increasing task complexity, adding a recurrent neural network on top seems
beneficial. Our models will serve as competitive baselines in future work, and
analysis of their performance highlights difficult cases when modeling the data
and suggests promising research directions.
- Abstract(参考訳): 本稿では,材料科学分野における新たな課題情報抽出課題を提案する。
本研究では,固体酸化物燃料電池に関する実験に関する情報を,材料や測定条件などの科学論文にマークするためのアノテーションスキームを開発した。
本稿では,本ガイドラインと,ドメインの専門家が注釈した45のオープンアクセス学術論文からなるSOFC-Expコーパスを公表する。
コーパスとアノテーション間合意研究は、提案されたエンティティ認識とスロット充足タスクの複雑さと高いアノテーション品質を実証する。
我々はまた、新しいデータセットに基づいて対処できる様々なタスクのための強力なニューラルネットワークベースのモデルも提示する。
すべてのタスクにおいて、BERT埋め込みを使用すると、パフォーマンスが大きく向上するが、タスクの複雑さが増すため、上に繰り返しニューラルネットワークを追加することは有益である。
我々のモデルは将来の作業において競争力のあるベースラインとして機能し、そのパフォーマンスの分析はデータのモデリングの難しさを浮き彫りにし、将来有望な研究方向性を示唆する。
関連論文リスト
- Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Artificial Intuition: Efficient Classification of Scientific Abstracts [42.299140272218274]
短い科学的テキストは、解釈を助けるための豊富な知識を持つ専門家に、密集した情報を効率的に伝達する。
このギャップに対処するために、我々は、粗いドメイン固有のラベルを生成し、適切に割り当てる新しいアプローチを開発した。
本稿では,大規模言語モデル(LLM)が,補足的知識の強化に類似したプロセスにおいて,タスクに不可欠なメタデータを提供することを示す。
論文 参考訳(メタデータ) (2024-07-08T16:34:47Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - CARE: Extracting Experimental Findings From Clinical Literature [29.763929941107616]
本研究は,臨床所見抽出のための新しいIEデータセットであるCAREを提示する。
我々は,エンティティと属性間のn-ary関係として微細な発見をキャプチャする新しいアノテーションスキーマを開発した。
臨床治験と症例報告の2つの資料から,700件の要約の広範な注釈を収集した。
論文 参考訳(メタデータ) (2023-11-16T10:06:19Z) - All Data on the Table: Novel Dataset and Benchmark for Cross-Modality
Scientific Information Extraction [39.05577374775964]
本稿では,テキスト中のエンティティをアノテートする半教師付きパイプラインと,テーブル内のエンティティとリレーションを反復的に提案する。
我々は,高品質なベンチマーク,大規模コーパス,半教師付きアノテーションパイプラインなど,科学コミュニティのための新たなリソースをリリースする。
論文 参考訳(メタデータ) (2023-11-14T14:22:47Z) - MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain [0.7947524927438001]
材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-24T07:23:46Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - Unsupervised Opinion Summarization with Content Planning [58.5308638148329]
要約モデルにコンテンツプランニングを明示的に組み込むことで、より高い品質のアウトプットが得られることを示す。
また、より自然な合成データセットを作成し、実世界の文書と要約のペアに似ている。
当社のアプローチは,情報的,一貫性,流動的な要約を生成する上で,競争モデルよりも優れています。
論文 参考訳(メタデータ) (2020-12-14T18:41:58Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。