Fugu-MT 論文翻訳(概要): Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT

論文の概要: Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT

arxiv url: http://arxiv.org/abs/2304.02213v3
Date: Mon, 10 Apr 2023 15:53:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-11 11:42:02.460841
Title: Large Language Models as Master Key: Unlocking the Secrets of Materials Science with GPT
Title（参考訳）: マスターキーとしての大規模言語モデル: gptによる材料科学の秘密の解錠
Authors: Tong Xie, Yuwei Wan, Wei Huang, Yufei Zhou, Yixuan Liu, Qingyuan Linghu, Shaozhou Wang, Chunyu Kit, Clara Grazian and Bram Hoex
Abstract要約: 本稿では、材料科学におけるデバイスレベルでの情報抽出の複雑さに対処するため、構造化情報推論(SII)と呼ばれる新しいNLPタスクを提案する。我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングすることで、このタスクを達成した。この機能は、材料科学者がドメイン内で高品質なレビュー論文を選択することで、独自のモデルを開発することを可能にする。
参考スコア（独自算出の注目度）: 4.969507813762113
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Data has growing significance in exploring cutting-edge materials, and the number of datasets has been generated either by hand or automated approaches. However, the materials science field struggles to effectively utilize the abundance of generated data, especially in applied disciplines where materials are evaluated based on device performance rather than their properties. This article presents a new NLP task called structured information inference (SII) to address the complexities of information extraction at the device level in materials science. We accomplished this task by tuning GPT-3 on an existing perovskite solar cell FAIR (Findable, Accessible, Interoperable, Reusable) dataset with 91.8% F1-score and we updated the dataset with all related scientific papers up to now. The produced data is formatted and normalized, enabling its direct utilization as input in subsequent data analysis. This feature will enable materials scientists to develop their own models by selecting high-quality review papers within their domain. Furthermore, we designed experiments to predict solar cells' electrical performance and design materials or devices with target parameters through LLM. We obtained comparable performance with traditional machine learning methods without feature selection, demonstrating the potential of LLMs to learn scientific knowledge and design new materials like a materials scientist.
Abstract（参考訳）: データは最先端の材料を探索する上で重要になってきており、データセットの数は手動または自動で生成されている。しかし、材料科学分野は、特に材料が特性よりもデバイス性能に基づいて評価されるような応用分野において、生成データの豊富さを効果的に活用することに苦慮している。本稿では、材料科学におけるデバイスレベルでの情報抽出の複雑さに対処するため、構造化情報推論(SII)と呼ばれる新しいNLPタスクを提案する。我々は、既存のペロブスカイト型太陽電池FAIR(Findable, Accessible, Interoperable, Reusable)データセットに91.8%のF1スコアでGPT-3をチューニングすることで、この課題を達成した。生成されたデータはフォーマットされ、正規化され、その後のデータ分析で入力として直接利用することができる。この機能により、材料科学者はドメイン内で高品質のレビュー論文を選択できる。さらに,太陽電池の電気性能を予測し,目標パラメータを持つ材料や装置をllmで設計する実験を行った。我々は,LLMが科学知識を習得し,材料科学者のような新しい素材を設計する可能性を実証し,特徴選択のない従来の機械学習手法と同等のパフォーマンスを得た。

関連論文リスト

Towards Agentic Intelligence for Materials Science [73.4576385477731]
この調査は、コーパスキュレーションからプレトレーニングから、シミュレーションと実験プラットフォームに面した目標条件付きエージェントまで、ユニークなパイプライン中心の視点を推し進める。コミュニティをブリッジし、参照の共有フレームを確立するために、まず、AIと材料科学をまたいだ用語、評価、ワークフローの段階を整列する統合レンズを提示する。
論文参考訳（メタデータ） (2026-01-29T23:48:43Z)
Materials Generation in the Era of Artificial Intelligence: A Comprehensive Survey [54.40267149907223]
材料は現代社会の基礎であり、エネルギー、エレクトロニクス、医療、交通、インフラの進歩を支えている。高度に調整された特性を持つ新しい材料を発見・設計する能力は、世界的課題の解決に不可欠である。データ駆動生成モデルは、事前定義された特性要件を満たす新しい材料を直接作成することによって、材料設計のための強力なツールを提供する。
論文参考訳（メタデータ） (2025-05-22T08:33:21Z)
Causal Discovery from Data Assisted by Large Language Models [50.193740129296245]
知識駆動発見のために、実験データと事前のドメイン知識を統合することが不可欠である。本稿では、高分解能走査透過電子顕微鏡(STEM)データと大規模言語モデル(LLM)からの洞察を組み合わせることで、このアプローチを実証する。 SmドープBiFeO3(SmBFO)におけるChatGPTをドメイン固有文献に微調整することにより、構造的、化学的、分極的自由度の間の因果関係をマッピングするDAG(Directed Acyclic Graphs)の隣接行列を構築する。
論文参考訳（メタデータ） (2025-03-18T02:14:49Z)
Towards an automated workflow in materials science for combining multi-modal simulative and experimental information using data mining and large language models [0.0]
この原稿には、科学文献から機械可読データベースにエンコードされた情報を公開する自動化ワークフローが紹介されている。最終的に、Retrieval-Augmented Generation (RAG)ベースのLarge Language Model (LLM)は、高速で効率的な質問応答チャットボットを可能にする。
論文参考訳（メタデータ） (2025-02-18T16:24:46Z)
Evaluating Language Models as Synthetic Data Generators [74.80905172696366]
AgoraBenchは、LMのデータ生成能力を評価するための標準化された設定とメトリクスを提供するベンチマークである。 6つのLMを使って126万のトレーニングインスタンスを合成し、99の学生モデルをトレーニングすることで、LMのデータ生成能力に関する重要な洞察を明らかにする。
論文参考訳（メタデータ） (2024-12-04T19:20:32Z)
Foundation Model for Composite Materials and Microstructural Analysis [49.1574468325115]
複合材料に特化して設計された基礎モデルを提案する。我々のモデルは、頑健な潜伏特性を学習するために、短繊維コンポジットのデータセット上で事前訓練されている。転送学習中、MMAEはR2スコアが0.959に達し、限られたデータで訓練しても0.91を超えている均質化剛性を正確に予測する。
論文参考訳（メタデータ） (2024-11-10T19:06:25Z)
Synthetic Data Generation with Large Language Models for Personalized Community Question Answering [47.300506002171275]
既存のデータセットであるSE-PQAに基づいてSy-SE-PQAを構築します。以上の結果から,LCMはユーザのニーズに合わせてデータを生成する可能性が高いことが示唆された。合成データは、たとえ生成されたデータが誤った情報を含むとしても、人書きのトレーニングデータを置き換えることができる。
論文参考訳（メタデータ） (2024-10-29T16:19:08Z)
From Text to Insight: Large Language Models for Materials Science Data Extraction [4.08853418443192]
科学知識の大部分は、構造化されていない自然言語に存在する。構造化データは革新的で体系的な材料設計に不可欠である。大きな言語モデル(LLM)の出現は、大きな変化を示している。
論文参考訳（メタデータ） (2024-07-23T22:23:47Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文参考訳（メタデータ） (2024-07-02T22:23:40Z)
SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature [80.49349719239584]
SciRIFF(Scientific Resource for Instruction-Following and Finetuning, SciRIFF)は、54のタスクに対して137Kの命令追従デモのデータセットである。 SciRIFFは、幅広い科学分野の研究文献から情報を抽出し、合成することに焦点を当てた最初のデータセットである。
論文参考訳（メタデータ） (2024-06-10T21:22:08Z)
Dynamic In-context Learning with Conversational Models for Data Extraction and Materials Property Prediction [0.0]
PropertyExtractorは、ゼロショットと数ショットのインコンテキスト学習をブレンドしたオープンソースのツールである。本試験では, 約9%の誤差率で95%を超える精度とリコールを実証した。
論文参考訳（メタデータ） (2024-05-16T21:15:51Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Mining experimental data from Materials Science literature with Large Language Models: an evaluation study [1.9849264945671101]
本研究は,大規模言語モデル (LLM) の教材科学における科学的資料から構造化情報を抽出する能力を評価することを目的としている。我々は,情報抽出における2つの重要な課題に焦点をあてる: (i) 研究材料と物性の名前を付けたエンティティ認識(NER) と, (ii) それらのエンティティ間の関係抽出(RE) である。これらのタスクの実行におけるLCMの性能は、BERTアーキテクチャとルールベースのアプローチ(ベースライン)に基づいて従来のモデルと比較される。
論文参考訳（メタデータ） (2024-01-19T23:00:31Z)
Agent-based Learning of Materials Datasets from Scientific Literature [0.0]
我々は,大規模言語モデル(LLM)を利用した化学AIエージェントを開発し,自然言語テキストから構造化データセットを作成する。化学者のAIエージェントであるEunomiaは、何十年もの科学研究論文から既存の知識を活用して、行動を計画し実行することができる。
論文参考訳（メタデータ） (2023-12-18T20:29:58Z)
Accelerated materials language processing enabled by GPT [5.518792725397679]
我々は材料言語処理のための生成変換器(GPT)対応パイプラインを開発した。まず、関連する文書をスクリーニングするためのGPT対応文書分類手法を開発する。第二に、NERタスクでは、エンティティ中心のプロンプトを設計し、そのほとんどを学習することで、パフォーマンスが改善された。最後に,GPT対応抽出QAモデルを開発し,性能の向上とアノテーションの自動修正の可能性を示す。
論文参考訳（メタデータ） (2023-08-18T07:31:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。