論文の概要: LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction
- arxiv url: http://arxiv.org/abs/2411.00177v3
- Date: Sat, 30 Nov 2024 14:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 20:22:17.817341
- Title: LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction
- Title(参考訳): LLM4Mat-Bench: 材料特性予測のための大規模言語モデルのベンチマーク
- Authors: Andre Niyongabo Rubungo, Kangming Li, Jason Hattrick-Simpers, Adji Bousso Dieng,
- Abstract要約: 大規模言語モデル(LLM)は、材料科学でますます使われている。
LLM4Mat-Benchは、液晶材料の特性予測におけるLCMの性能評価のための、これまでで最大のベンチマークである。
- 参考スコア(独自算出の注目度): 4.377555282482224
- License:
- Abstract: Large language models (LLMs) are increasingly being used in materials science. However, little attention has been given to benchmarking and standardized evaluation for LLM-based materials property prediction, which hinders progress. We present LLM4Mat-Bench, the largest benchmark to date for evaluating the performance of LLMs in predicting the properties of crystalline materials. LLM4Mat-Bench contains about 1.9M crystal structures in total, collected from 10 publicly available materials data sources, and 45 distinct properties. LLM4Mat-Bench features different input modalities: crystal composition, CIF, and crystal text description, with 4.7M, 615.5M, and 3.1B tokens in total for each modality, respectively. We use LLM4Mat-Bench to fine-tune models with different sizes, including LLM-Prop and MatBERT, and provide zero-shot and few-shot prompts to evaluate the property prediction capabilities of LLM-chat-like models, including Llama, Gemma, and Mistral. The results highlight the challenges of general-purpose LLMs in materials science and the need for task-specific predictive models and task-specific instruction-tuned LLMs in materials property prediction.
- Abstract(参考訳): 大規模言語モデル(LLM)は、材料科学でますます使われている。
しかし,LCMをベースとした材料特性予測のベンチマークや標準化評価にはほとんど注意が払われておらず,進展を妨げている。
LLM4Mat-Benchは、液晶材料の特性予測におけるLCMの性能評価のための、これまでで最大のベンチマークである。
LLM4Mat-Benchは、合計で約1.9Mの結晶構造を持ち、10つの公開資料データソースから収集され、45の異なる性質を持つ。
LLM4Mat-Benchは、それぞれ4.7M、615.5M、および3.1Bのトークンを持つ結晶組成、CIF、および結晶記述の異なる入力モダリティを特徴としている。
LLM-Prop や MatBERT などサイズの異なるモデルに LLM4Mat-Bench を用い,Llama や Gemma,Mistral など LLM-Chat のようなモデルの特性予測能力を評価するためにゼロショットおよび少数ショットプロンプトを提供する。
その結果、材料科学における汎用LSMの課題と、材料特性予測におけるタスク固有予測モデルとタスク特化LDMの必要性が浮き彫りになった。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Foundational Large Language Models for Materials Research [22.77591279242839]
大規模言語モデル(LLM)は、自動分析と予測を通じて材料研究を加速する機会を提供する。
本稿では,LLaMAモデルの継続事前学習を通じて発達した材料科学の基礎モデルであるLLaMatについて述べる。
LLaMatは、一般的な言語能力を維持しつつ、材料固有のNLPと構造化情報抽出に優れることを示した。
論文 参考訳(メタデータ) (2024-12-12T18:46:38Z) - Sampling Latent Material-Property Information From LLM-Derived Embedding Representations [0.0]
大規模言語モデル(LLM)から派生したベクトル埋め込みは、文献から潜伏した情報を取得することを約束している。
本研究では, LLM由来ベクトルが所望の情報を捕捉する範囲と, 付加的なトレーニングを伴わずに材料特性に関する洞察を提供する可能性について検討する。
論文 参考訳(メタデータ) (2024-09-18T13:22:04Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - LLM-Ensemble: Optimal Large Language Model Ensemble Method for E-commerce Product Attribute Value Extraction [12.611106580612033]
大規模言語モデル(LLM)は多くの属性抽出タスクにおいて最先端の性能を示す。
属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルと呼ばれる新しいアルゴリズムを提案する。
提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
論文 参考訳(メタデータ) (2024-02-29T23:03:19Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - ArcMMLU: A Library and Information Science Benchmark for Large Language
Models [25.36473762494066]
本稿では,中国語のライブラリ・アンド・インフォメーション・サイエンス(LIS)ドメインに適したベンチマークであるArcMMLUを紹介する。
このベンチマークは、考古学、データ科学、図書館科学、情報科学の4つの重要なサブドメインにおいて、LLMの知識と推論能力を測定することを目的としている。
総合評価の結果,ほとんどのLLMはArcMMLUで50%以上の精度を達成するが,性能差は顕著であることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:08:04Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。