論文の概要: DARWIN 1.5: Large Language Models as Materials Science Adapted Learners
- arxiv url: http://arxiv.org/abs/2412.11970v2
- Date: Thu, 23 Jan 2025 08:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:56:19.134171
- Title: DARWIN 1.5: Large Language Models as Materials Science Adapted Learners
- Title(参考訳): DARWIN 1.5: 教材科学に対応した学習者のための大規模言語モデル
- Authors: Tong Xie, Yuwei Wan, Yixuan Liu, Yuchen Zeng, Shaozhou Wang, Wenjie Zhang, Clara Grazian, Chunyu Kit, Wanli Ouyang, Dongzhan Zhou, Bram Hoex,
- Abstract要約: DARWIN 1.5は,材料科学に適したオープンソースの大規模言語モデルである。
DARWINはタスク固有の記述子の必要性を排除し、材料特性の予測と発見に対する柔軟な統一的なアプローチを可能にする。
提案手法は,6Mの物質ドメイン論文と49,256の物質から得られた21の実験データセットを統合し,タスク間の知識伝達を可能にする。
- 参考スコア(独自算出の注目度): 46.7259033847682
- License:
- Abstract: Materials discovery and design aim to find compositions and structures with desirable properties over highly complex and diverse physical spaces. Traditional solutions, such as high-throughput simulations or machine learning, often rely on complex descriptors, which hinder generalizability and transferability across different material systems. Moreover, These descriptors may inadequately represent macro-scale material properties, which are influenced by structural imperfections and compositional variations in real-world samples, thus limiting their practical applicability. To address these challenges, we propose DARWIN 1.5, the largest open-source large language model tailored for materials science. By leveraging natural language as input, DARWIN eliminates the need for task-specific descriptors and enables a flexible, unified approach to material property prediction and discovery. Our approach integrates 6M material domain papers and 21 experimental datasets from 49,256 materials across modalities while enabling cross-task knowledge transfer. The enhanced model achieves up to 59.1% improvement in prediction accuracy over the base LLaMA-7B architecture and outperforms SOTA machine learning approaches across 8 materials design tasks. These results establish LLMs as a promising foundation for developing versatile and scalable models in materials science.
- Abstract(参考訳): 材料発見と設計は、非常に複雑で多様な物理空間上に望ましい性質を持つ構成や構造を見つけることを目的としている。
高スループットのシミュレーションや機械学習といった従来のソリューションは、しばしば複雑な記述子に依存しており、様々な材料システムにおける一般化可能性や伝達可能性を妨げる。
さらに、これらの記述子は、実世界のサンプルの構造上の不完全さや構成上のバリエーションの影響を受け、マクロな材料特性を不十分に表現し、実用性を制限することができる。
これらの課題に対処するため、材料科学に適したオープンソースの大規模言語モデルであるDARWIN 1.5を提案する。
自然言語を入力として活用することにより、DARWINはタスク固有の記述子の必要性を排除し、物質特性の予測と発見に対する柔軟な統一的なアプローチを可能にする。
提案手法は,6Mの物質ドメイン論文と49,256の物質から得られた21の実験データセットを統合し,タスク間の知識伝達を可能にする。
改良されたモデルでは、LLaMA-7Bアーキテクチャの予測精度が59.1%向上し、8つの材料設計タスクでSOTA機械学習アプローチを上回っている。
これらの結果は、材料科学において多用途でスケーラブルなモデルを開発するための有望な基盤としてLLMを確立している。
関連論文リスト
- Foundational Large Language Models for Materials Research [22.77591279242839]
大規模言語モデル(LLM)は、自動分析と予測を通じて材料研究を加速する機会を提供する。
本稿では,LLaMAモデルの継続事前学習を通じて発達した材料科学の基礎モデルであるLLaMatについて述べる。
LLaMatは、一般的な言語能力を維持しつつ、材料固有のNLPと構造化情報抽出に優れることを示した。
論文 参考訳(メタデータ) (2024-12-12T18:46:38Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - Foundation Model for Composite Materials and Microstructural Analysis [0.0]
複合材料に特化して設計された基礎モデルを提案する。
本研究は, 複合材料における基礎モデルの有効性と有効性について検証した。
このフレームワークは実験データが少ない場合でも高精度な予測を可能にする。
論文 参考訳(メタデータ) (2024-11-10T19:06:25Z) - OpenMaterial: A Comprehensive Dataset of Complex Materials for 3D Reconstruction [54.706361479680055]
295個の異なる材料からなる1001個のオブジェクトからなるOpenMaterialデータセットを紹介した。
OpenMaterialは3D形状、マテリアルタイプ、カメラポーズ、深さ、オブジェクトマスクなど、包括的なアノテーションを提供する。
これは、多様で挑戦的な材料を持つオブジェクト上で、既存のアルゴリズムの定量的評価を可能にする最初の大規模データセットである。
論文 参考訳(メタデータ) (2024-06-13T07:46:17Z) - Fine-Tuned Language Models Generate Stable Inorganic Materials as Text [57.01994216693825]
テキストエンコードされた原子構造データに基づく微調整された大規模言語モデルは、実装が簡単で信頼性が高い。
我々の最強モデルは、CDVAEの約2倍の速度で準安定であると予測された物質を生成することができる。
テキストプロンプト固有の柔軟性のため、我々のモデルは安定物質を無条件に生成するために同時に使用することができる。
論文 参考訳(メタデータ) (2024-02-06T20:35:28Z) - FAENet: Frame Averaging Equivariant GNN for Materials Modeling [123.19473575281357]
データ変換による任意のモデルE(3)-同変や不変化を実現するために,フレームアラグリング(SFA)に依存したフレキシブルなフレームワークを導入する。
本手法の有効性を理論的および実験的に証明し, 材料モデリングにおける精度と計算スケーラビリティを実証する。
論文 参考訳(メタデータ) (2023-04-28T21:48:31Z) - A Comprehensive and Versatile Multimodal Deep Learning Approach for
Predicting Diverse Properties of Advanced Materials [0.9517427900627922]
10次元アクリルポリマー複合材料の物性を予測するための多モード深層学習フレームワークを提案する。
提案手法は, 合成条件114,210において, 10個の入力と8個の特性出力を持ち, 913,680個の特性データポイントの予測に成功している。
この研究は、様々な材料に関する将来の研究と、より洗練されたモデルの開発を推進し、全ての材料の全ての特性を予測するという究極の目標に近づいた。
論文 参考訳(メタデータ) (2023-03-29T02:42:17Z) - DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure
reconstruction from extremely small data sets [110.60233593474796]
DA-VEGANは2つの中心的なイノベーションを持つモデルである。
$beta$-variational autoencoderはハイブリッドGANアーキテクチャに組み込まれている。
このアーキテクチャに特化して、独自の差別化可能なデータ拡張スキームが開発されている。
論文 参考訳(メタデータ) (2023-02-17T08:49:09Z) - Data-driven multi-scale modeling and robust optimization of composite
structure with uncertainty quantification [0.42581756453559755]
この章では、先進的なデータ駆動手法を示し、先進的な複合材料をマルチスケールでモデリングするために開発・追加する能力について概説する。
代理モデル/エミュレータによって駆動される有限要素法(FEM)シミュレーションに基づく複合構造物のマルチスケールモデリング手法を提案する。
論文 参考訳(メタデータ) (2022-10-13T16:40:11Z) - Intelligent multiscale simulation based on process-guided composite
database [0.0]
本稿では、プロセスモデリング、材料均質化、機械学習に基づく統合データ駆動モデリングフレームワークを提案する。
我々は, 自動車, 航空宇宙, エレクトロニクス産業において重要な材料システムとして認識されてきた, 射出成形した短繊維強化複合材料に興味を持っている。
論文 参考訳(メタデータ) (2020-03-20T20:39:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。