論文の概要: PolyIE: A Dataset of Information Extraction from Polymer Material
Scientific Literature
- arxiv url: http://arxiv.org/abs/2311.07715v1
- Date: Mon, 13 Nov 2023 19:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:34:02.478816
- Title: PolyIE: A Dataset of Information Extraction from Polymer Material
Scientific Literature
- Title(参考訳): PolyIE: 高分子材料科学文献からの情報抽出のデータセット
- Authors: Jerry Junyang Cheung, Yuchen Zhuang, Yinghao Li, Pranav Shetty,
Wantian Zhao, Sanjeev Grampurohit, Rampi Ramprasad, Chao Zhang
- Abstract要約: 高分子材料のためのSciIEデータセットは存在しない。
ポリIEは、フル長のポリマーの学術論文146本から作成されている。
我々は,最先端の実体抽出モデルと関係抽出モデルの評価を行った。
- 参考スコア(独自算出の注目度): 12.683892345875336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific information extraction (SciIE), which aims to automatically
extract information from scientific literature, is becoming more important than
ever. However, there are no existing SciIE datasets for polymer materials,
which is an important class of materials used ubiquitously in our daily lives.
To bridge this gap, we introduce POLYIE, a new SciIE dataset for polymer
materials. POLYIE is curated from 146 full-length polymer scholarly articles,
which are annotated with different named entities (i.e., materials, properties,
values, conditions) as well as their N-ary relations by domain experts. POLYIE
presents several unique challenges due to diverse lexical formats of entities,
ambiguity between entities, and variable-length relations. We evaluate
state-of-the-art named entity extraction and relation extraction models on
POLYIE, analyze their strengths and weaknesses, and highlight some difficult
cases for these models. To the best of our knowledge, POLYIE is the first SciIE
benchmark for polymer materials, and we hope it will lead to more research
efforts from the community on this challenging task. Our code and data are
available on: https://github.com/jerry3027/PolyIE.
- Abstract(参考訳): 学術文献から情報を自動的に抽出する科学情報抽出(sciie)が、これまで以上に重要になっている。
しかし, 高分子材料に対するSciIEデータセットは存在せず, 日常生活でユビキタスに使われている重要な材料群である。
このギャップを埋めるために,高分子材料のための新しいSciIEデータセットであるPOLYIEを紹介する。
polyieは、ドメインの専門家によるn-ary関係だけでなく、異なる名前付きエンティティ(すなわち、材料、特性、値、条件)でアノテートされた146の長大なポリマー学術論文から作成されている。
POLYIEは、エンティティの様々な語彙形式、エンティティ間のあいまいさ、変数長関係など、いくつかのユニークな課題を提示している。
本研究では, ポリエ上の固有実体抽出および関係抽出モデルの評価を行い, その強みと弱みを分析し, これらのモデルの難しさを浮き彫りにする。
我々の知る限りでは、PollyIEは高分子材料のSciIEベンチマークとしては初めてのものであり、この挑戦的な課題に関してコミュニティのさらなる研究努力に繋がることを期待しています。
私たちのコードとデータは、https://github.com/jerry3027/PolyIE.comで利用可能です。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - ADELIE: Aligning Large Language Models on Information Extraction [55.60192044049083]
大規模言語モデル(LLM)は通常、情報抽出タスクで不足する。
本稿では,様々なIEタスクを効果的に解決する協調LLMであるADELIEを紹介する。
本稿では,オープンソースモデル間でのSoTA(State-of-the-art)性能について述べる。
論文 参考訳(メタデータ) (2024-05-08T12:24:52Z) - Large Language Models for Generative Information Extraction: A Survey [89.71273968283616]
大規模言語モデル(LLM)は、テキスト理解と生成において顕著な能力を示した。
各種IEサブタスクと技術の観点から,これらの作品を分類して概観する。
我々は,最も先進的な手法を実証的に分析し,LLMによるIEタスクの出現傾向を明らかにする。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Compositional Representation of Polymorphic Crystalline Materials [56.80318252233511]
PCRLは,構成の確率論的モデリングを用いて,利用可能な構造情報から多型を抽出する手法である。
16のデータセットに対する広範囲な評価は、構成表現の学習におけるPCRLの有効性を示す。
論文 参考訳(メタデータ) (2023-11-17T20:34:28Z) - MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain [0.7947524927438001]
材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-24T07:23:46Z) - MatKB: Semantic Search for Polycrystalline Materials Synthesis
Procedures [2.578242050187029]
私たちのゴールは、多結晶材料分野の何百万もの研究論文から構造化された知識を自動的にマイニングすることです。
提案手法は,エンティティ認識や文書分類などのNLP技術を利用して関連情報を抽出する。
得られた知識ベースは検索エンジンに統合され、ユーザーはGoogleのような従来の検索エンジンよりも精度の高い特定の材料、プロパティ、実験に関する情報を検索できる。
論文 参考訳(メタデータ) (2023-02-11T04:18:07Z) - A general-purpose material property data extraction pipeline from large
polymer corpora using Natural Language Processing [4.688077134982731]
本研究では, 自然言語処理手法を用いて, 高分子文学の抽象資料から材料特性データを自動的に抽出した。
60時間で13万件の抄録から30万件の資料を入手した。
抽出したデータは、燃料電池、スーパーキャパシタ、高分子太陽電池など様々な用途で分析された。
論文 参考訳(メタデータ) (2022-09-27T03:47:03Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Copolymer Informatics with Multi-Task Deep Neural Networks [0.0]
コポリマーの性質予測の課題に取り組み、ホモポリマーを超えてポリマーインフォマティクスフレームワークを拡張します。
2つのモノマーのホモポリマーと共重合体のガラス転移、融解、分解温度の18,000以上のデータポイントを含む大きなデータセットを用いる。
開発されたモデルは、適切なデータが利用可能になったときに、よりコポリマー特性に正確、迅速、柔軟、スケーラブルです。
論文 参考訳(メタデータ) (2021-03-25T23:28:20Z) - Polymer Informatics: Current Status and Critical Next Steps [1.3238373064156097]
サロゲートモデルは、インスタントプロパティ予測のために利用可能なポリマーデータに基づいて訓練される。
データ駆動型戦略は, 高分子の化学的, 物理的多様性から生じる特異な課題に, 小規模かつ大規模に対処するものである。
アプリケーションターゲットを満たす高度なAIアルゴリズムを用いて, 高分子レコメンデーションを行う逆問題の解法について検討している。
論文 参考訳(メタデータ) (2020-11-01T14:17:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。