論文の概要: Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT
- arxiv url: http://arxiv.org/abs/2304.02213v4
- Date: Tue, 11 Apr 2023 15:44:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 11:32:15.380570
- Title: Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT
- Title(参考訳): マスターキーとしての大規模言語モデル: gptによる材料科学の秘密の解錠
- Authors: Tong Xie, Yuwei Wan, Wei Huang, Yufei Zhou, Yixuan Liu, Qingyuan
Linghu, Shaozhou Wang, Chunyu Kit, Clara Grazian, Wenjie Zhang and Bram Hoex
- Abstract要約: 本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
また、太陽電池の電気性能を予測する実験を設計し、大規模言語モデル(LLM)を用いてターゲットパラメータを持つ材料や装置の設計を行った。
- 参考スコア(独自算出の注目度): 9.33544942080883
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The amount of data has growing significance in exploring cutting-edge
materials and a number of datasets have been generated either by hand or
automated approaches. However, the materials science field struggles to
effectively utilize the abundance of data, especially in applied disciplines
where materials are evaluated based on device performance rather than their
properties. This article presents a new natural language processing (NLP) task
called structured information inference (SII) to address the complexities of
information extraction at the device level in materials science. We
accomplished this task by tuning GPT-3 on an existing perovskite solar cell
FAIR (Findable, Accessible, Interoperable, Reusable) dataset with 91.8%
F1-score and extended the dataset with data published since its release. The
produced data is formatted and normalized, enabling its direct utilization as
input in subsequent data analysis. This feature empowers materials scientists
to develop models by selecting high-quality review articles within their
domain. Additionally, we designed experiments to predict the electrical
performance of solar cells and design materials or devices with targeted
parameters using large language models (LLMs). Our results demonstrate
comparable performance to traditional machine learning methods without feature
selection, highlighting the potential of LLMs to acquire scientific knowledge
and design new materials akin to materials scientists.
- Abstract(参考訳): 最先端の材料の探索において、データ量の重要性が増しており、手や自動的なアプローチによって多くのデータセットが生成されている。
しかし、材料科学分野は、特に材料が特性よりもデバイスの性能に基づいて評価される応用分野において、データ量の有効利用に苦慮している。
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト太陽電池FAIR(Findable, Accessible, Interoperable, Reusable)データセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
生成されたデータはフォーマットされ、正規化され、その後のデータ分析で入力として直接利用することができる。
この機能により、材料科学者はドメイン内で高品質なレビュー記事を選択することでモデルを開発することができる。
さらに,大型言語モデル(llms)を用いて太陽電池の電気性能を予測し,対象パラメータを有する材料やデバイスの設計実験を行った。
本結果は,LLMが科学知識を習得し,材料科学者に似た新しい素材を設計する可能性を強調し,特徴選択のない従来の機械学習手法に匹敵する性能を示した。
関連論文リスト
- Foundation Model for Composite Materials and Microstructural Analysis [49.1574468325115]
複合材料に特化して設計された基礎モデルを提案する。
我々のモデルは、頑健な潜伏特性を学習するために、短繊維コンポジットのデータセット上で事前訓練されている。
転送学習中、MMAEはR2スコアが0.959に達し、限られたデータで訓練しても0.91を超えている均質化剛性を正確に予測する。
論文 参考訳(メタデータ) (2024-11-10T19:06:25Z) - Synthetic Data Generation with Large Language Models for Personalized Community Question Answering [47.300506002171275]
既存のデータセットであるSE-PQAに基づいてSy-SE-PQAを構築します。
以上の結果から,LCMはユーザのニーズに合わせてデータを生成する可能性が高いことが示唆された。
合成データは、たとえ生成されたデータが誤った情報を含むとしても、人書きのトレーニングデータを置き換えることができる。
論文 参考訳(メタデータ) (2024-10-29T16:19:08Z) - From Text to Insight: Large Language Models for Materials Science Data Extraction [4.08853418443192]
科学知識の大部分は、構造化されていない自然言語に存在する。
構造化データは革新的で体系的な材料設計に不可欠である。
大きな言語モデル(LLM)の出現は、大きな変化を示している。
論文 参考訳(メタデータ) (2024-07-23T22:23:47Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。
我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。
データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。
SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文 参考訳(メタデータ) (2024-06-10T21:22:08Z) - Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。
本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文 参考訳(メタデータ) (2024-05-16T21:15:51Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Mining experimental data from Materials Science literature with Large Language Models: an evaluation study [1.9849264945671101]
本研究は,大規模言語モデル (LLM) の教材科学における科学的資料から構造化情報を抽出する能力を評価することを目的としている。
我々は,情報抽出における2つの重要な課題に焦点をあてる: (i) 研究材料と物性の名前を付けたエンティティ認識(NER) と, (ii) それらのエンティティ間の関係抽出(RE) である。
これらのタスクの実行におけるLCMの性能は、BERTアーキテクチャとルールベースのアプローチ(ベースライン)に基づいて従来のモデルと比較される。
論文 参考訳(メタデータ) (2024-01-19T23:00:31Z) - Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。
化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文 参考訳(メタデータ) (2023-12-18T20:29:58Z) - Accelerated materials language processing enabled by GPT [5.518792725397679]
我々は材料言語処理のための生成変換器(GPT)対応パイプラインを開発した。
まず、関連する文書をスクリーニングするためのGPT対応文書分類手法を開発する。
第二に、NERタスクでは、エンティティ中心のプロンプトを設計し、そのほとんどを学習することで、パフォーマンスが改善された。
最後に,GPT対応抽出QAモデルを開発し,性能の向上とアノテーションの自動修正の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T07:31:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。