論文の概要: AlloyBERT: Alloy Property Prediction with Large Language Models
- arxiv url: http://arxiv.org/abs/2403.19783v1
- Date: Thu, 28 Mar 2024 19:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 17:23:49.391087
- Title: AlloyBERT: Alloy Property Prediction with Large Language Models
- Title(参考訳): AlloyBERT:大規模言語モデルによる合金の特性予測
- Authors: Akshat Chaudhari, Chakradhar Guntuboina, Hongshuo Huang, Amir Barati Farimani,
- Abstract要約: 本研究は, テキスト入力による合金特性の予測を目的とした変圧器エンコーダモデル, AlloyBERTを紹介する。
テキストデータに基づいてトレーニングされたトークン化器とRoBERTaエンコーダを組み合わさることで,Multi principal Elemental Alloys (MPEA)データセットにおける平均2乗誤差(MSE)が0.00015,Refractory Alloy Yield Strength (RAYS)データセットで0.00611に達した。
本研究は,材料科学における言語モデルの可能性を強調し,合金特性のテキストベース予測のための基礎的枠組みを構築した。
- 参考スコア(独自算出の注目度): 5.812284760539713
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The pursuit of novel alloys tailored to specific requirements poses significant challenges for researchers in the field. This underscores the importance of developing predictive techniques for essential physical properties of alloys based on their chemical composition and processing parameters. This study introduces AlloyBERT, a transformer encoder-based model designed to predict properties such as elastic modulus and yield strength of alloys using textual inputs. Leveraging the pre-trained RoBERTa encoder model as its foundation, AlloyBERT employs self-attention mechanisms to establish meaningful relationships between words, enabling it to interpret human-readable input and predict target alloy properties. By combining a tokenizer trained on our textual data and a RoBERTa encoder pre-trained and fine-tuned for this specific task, we achieved a mean squared error (MSE) of 0.00015 on the Multi Principal Elemental Alloys (MPEA) data set and 0.00611 on the Refractory Alloy Yield Strength (RAYS) dataset. This surpasses the performance of shallow models, which achieved a best-case MSE of 0.00025 and 0.0076 on the MPEA and RAYS datasets respectively. Our results highlight the potential of language models in material science and establish a foundational framework for text-based prediction of alloy properties that does not rely on complex underlying representations, calculations, or simulations.
- Abstract(参考訳): 特定の要求に合わせた新しい合金の追求は、この分野の研究者にとって大きな課題となっている。
このことは、その化学組成と加工パラメータに基づいて、合金の本質的な物性を予測する技術を開発することの重要性を浮き彫りにしている。
本研究は, 弾性率, 降伏強度などの特性をテキスト入力を用いて予測する変換器エンコーダモデル, AlloyBERTを紹介する。
事前学習されたRoBERTaエンコーダモデルを基礎として、A AlloyBERTは単語間の有意義な関係を確立するための自己認識機構を採用し、人間の読みやすい入力を解釈し、ターゲット合金特性を予測する。
テキストデータに基づいてトレーニングされたトークン化器とRoBERTaエンコーダを組み合わさることで,Multi principal Elemental Alloys(MPEA)データセットの平均2乗誤差(MSE)が0.00015,Refractory Alloy Yield Strength(RAYS)データセットの0.00611に達した。
これは、MPEAデータセットとRAYSデータセットでそれぞれ0.00025と0.0076のベストケースMSEを達成した浅いモデルのパフォーマンスを上回っている。
本研究は, 材料科学における言語モデルの可能性を強調し, 複雑な基礎となる表現, 計算, シミュレーションに依存しない, 合金特性のテキストベース予測のための基礎的枠組みを構築した。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Accelerating the discovery of low-energy structure configurations: a computational approach that integrates first-principles calculations, Monte Carlo sampling, and Machine Learning [8.695927973994577]
我々は,モンテカルロサンプリング,第一原理DFT計算,機械学習を組み合わせた物理に基づくデータ駆動手法を開発した。
タングステン系4元系高エントロピー合金の特別な場合に対する提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-10-08T01:34:42Z) - A Large Encoder-Decoder Family of Foundation Models For Chemical Language [1.1073864511426255]
本稿では,PubChemから得られた9100万個のSMILESサンプルを事前学習した大規模エンコーダ・デコーダ化学基礎モデルを提案する。
複数のベンチマークデータセットにまたがる実験は、様々なタスクに対して最先端の結果を提供する際に提案したモデルのキャパシティを検証する。
論文 参考訳(メタデータ) (2024-07-24T20:30:39Z) - Decomposing and Editing Predictions by Modeling Model Computation [75.37535202884463]
コンポーネントモデリングというタスクを導入します。
コンポーネントモデリングの目標は、MLモデルの予測をコンポーネントの観点から分解することだ。
コンポーネント属性を推定するスケーラブルなアルゴリズムであるCOARを提案する。
論文 参考訳(メタデータ) (2024-04-17T16:28:08Z) - Fine-Tuned Language Models Generate Stable Inorganic Materials as Text [57.01994216693825]
テキストエンコードされた原子構造データに基づく微調整された大規模言語モデルは、実装が簡単で信頼性が高い。
我々の最強モデルは、CDVAEの約2倍の速度で準安定であると予測された物質を生成することができる。
テキストプロンプト固有の柔軟性のため、我々のモデルは安定物質を無条件に生成するために同時に使用することができる。
論文 参考訳(メタデータ) (2024-02-06T20:35:28Z) - Materials Informatics Transformer: A Language Model for Interpretable
Materials Properties Prediction [6.349503549199403]
本稿では,材料特性予測のための材料情報変換器(MatInFormer)について紹介する。
具体的には、関連する空間群情報のトークン化を通じて結晶学の文法を学習する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-30T18:34:55Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - Prediction of liquid fuel properties using machine learning models with
Gaussian processes and probabilistic conditional generative learning [56.67751936864119]
本研究の目的は、代替燃料の物理的特性を予測するためのクロージャ方程式として機能する、安価で計算可能な機械学習モデルを構築することである。
これらのモデルは、MDシミュレーションのデータベースや、データ融合-忠実性アプローチによる実験的な測定を用いて訓練することができる。
その結果,MLモデルでは,広範囲の圧力および温度条件の燃料特性を正確に予測できることがわかった。
論文 参考訳(メタデータ) (2021-10-18T14:43:50Z) - Machine Learning and Data Analytics for Design and Manufacturing of
High-Entropy Materials Exhibiting Mechanical or Fatigue Properties of
Interest [0.24466725954625884]
主な焦点は、構造材料のための大きな組成空間を持つ合金と複合材料である。
利子の出力特性ごとに、対応する駆動(入力)因子を識別する。
このフレームワークは、手元にあるアプリケーションと利用可能なデータに適した最適化手法を選択することを前提としている。
論文 参考訳(メタデータ) (2020-12-05T19:32:39Z) - Machine learning with persistent homology and chemical word embeddings
improves prediction accuracy and interpretability in metal-organic frameworks [0.07874708385247352]
材料の構造と化学の複雑な表現をキャプチャする記述子を自動的に生成するエンド・ツー・エンドの機械学習モデルを提案する。
物質系から直接、幾何学的および化学的情報をカプセル化する。
提案手法は, 対象物間での精度, 転送可能性の両面において, 一般的に用いられている手作業による特徴量から構築したモデルに比べ, かなり改善されている。
論文 参考訳(メタデータ) (2020-10-01T16:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。