論文の概要: MatSci-NLP: Evaluating Scientific Language Models on Materials Science
Language Tasks Using Text-to-Schema Modeling
- arxiv url: http://arxiv.org/abs/2305.08264v1
- Date: Sun, 14 May 2023 22:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 16:48:54.720809
- Title: MatSci-NLP: Evaluating Scientific Language Models on Materials Science
Language Tasks Using Text-to-Schema Modeling
- Title(参考訳): MatSci-NLP:テキスト-スキーマモデリングを用いた材料科学言語課題における科学言語モデルの評価
- Authors: Yu Song, Santiago Miret, Bang Liu
- Abstract要約: MatSci-NLPは、自然言語処理(NLP)モデルの性能を評価するためのベンチマークである。
我々は,7つの異なるNLPタスクを含む,公開資料科学テキストデータからベンチマークを構築した。
本研究では,様々な理科テキストコーパスで事前学習したBERTモデルについて検討し,事前学習戦略が教材理科テキストの理解に与える影響について考察した。
- 参考スコア(独自算出の注目度): 13.30198968869312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MatSci-NLP, a natural language benchmark for evaluating the
performance of natural language processing (NLP) models on materials science
text. We construct the benchmark from publicly available materials science text
data to encompass seven different NLP tasks, including conventional NLP tasks
like named entity recognition and relation classification, as well as NLP tasks
specific to materials science, such as synthesis action retrieval which relates
to creating synthesis procedures for materials. We study various BERT-based
models pretrained on different scientific text corpora on MatSci-NLP to
understand the impact of pretraining strategies on understanding materials
science text. Given the scarcity of high-quality annotated data in the
materials science domain, we perform our fine-tuning experiments with limited
training data to encourage the generalize across MatSci-NLP tasks. Our
experiments in this low-resource training setting show that language models
pretrained on scientific text outperform BERT trained on general text. MatBERT,
a model pretrained specifically on materials science journals, generally
performs best for most tasks. Moreover, we propose a unified text-to-schema for
multitask learning on \benchmark and compare its performance with traditional
fine-tuning methods. In our analysis of different training methods, we find
that our proposed text-to-schema methods inspired by question-answering
consistently outperform single and multitask NLP fine-tuning methods. The code
and datasets are publicly available at
\url{https://github.com/BangLab-UdeM-Mila/NLP4MatSci-ACL23}.
- Abstract(参考訳): 本研究では,自然言語処理(NLP)モデルの性能評価を行う自然言語ベンチマークであるMatSci-NLPを提案する。
本ベンチマークは,7つの異なるnlpタスク(名前付きエンティティ認識や関係分類などの従来のnlpタスクや,素材の合成手順の作成に関連する合成行動検索など,材料科学特有のnlpタスクを含む)を包含する,利用可能な材料科学のテキストデータから構築する。
本研究では,様々な理科テキストコーパスで事前学習したBERTモデルについて検討し,事前学習戦略が教材科学テキストの理解に与える影響を明らかにする。
材料科学分野における高品質な注釈データの不足を考えると,我々はmatsci-nlpタスク間の一般化を促進するために,限られたトレーニングデータを用いて微調整実験を行う。
この低リソース・トレーニング・セッティングにおける実験により,理科テキストで事前学習した言語モデルは,一般的なテキストで訓練したBERTより優れていることが示された。
MatBERTは、材料科学雑誌に特化して事前訓練されたモデルで、ほとんどのタスクに最適である。
さらに,Shabenchmark上でのマルチタスク学習のための統一テキストスキーマを提案し,その性能を従来の微調整手法と比較する。
異なる学習方法の分析により,提案手法が単タスクと多タスクのnlpの微調整法を常に上回っており,質問応答法に着想を得た。
コードとデータセットは \url{https://github.com/BangLab-UdeM-Mila/NLP4MatSci-ACL23} で公開されている。
関連論文リスト
- From Tokens to Materials: Leveraging Language Models for Scientific Discovery [12.211984932142537]
本研究では, 材料科学における材料特性予測のための言語モデル埋め込みの適用について検討した。
本研究では、ドメイン固有モデル、特にMatBERTが、複合名や材料特性から暗黙的な知識を抽出する際の汎用モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-21T16:31:23Z) - MatText: Do Language Models Need More than Text & Scale for Materials Modeling? [5.561723952524538]
MatTextは、モデリング材料における言語モデルのパフォーマンスを体系的に評価するために設計されたベンチマークツールとデータセットのスイートである。
MatTextは、材料科学の文脈で言語モデルのパフォーマンスをトレーニングし、ベンチマークするための重要なツールを提供する。
論文 参考訳(メタデータ) (2024-06-25T05:45:07Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。