論文の概要: LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction
- arxiv url: http://arxiv.org/abs/2411.00177v2
- Date: Fri, 08 Nov 2024 16:42:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 18:11:07.735952
- Title: LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction
- Title(参考訳): LLM4Mat-Bench: 材料特性予測のための大規模言語モデルのベンチマーク
- Authors: Andre Niyongabo Rubungo, Kangming Li, Jason Hattrick-Simpers, Adji Bousso Dieng,
- Abstract要約: 大規模言語モデル(LLM)は、材料科学でますます使われている。
LLM4Mat-Benchは、液晶材料の特性予測におけるLCMの性能評価のための、これまでで最大のベンチマークである。
- 参考スコア(独自算出の注目度): 4.377555282482224
- License:
- Abstract: Large language models (LLMs) are increasingly being used in materials science. However, little attention has been given to benchmarking and standardized evaluation for LLM-based materials property prediction, which hinders progress. We present LLM4Mat-Bench, the largest benchmark to date for evaluating the performance of LLMs in predicting the properties of crystalline materials. LLM4Mat-Bench contains about 1.9M crystal structures in total, collected from 10 publicly available materials data sources, and 45 distinct properties. LLM4Mat-Bench features different input modalities: crystal composition, CIF, and crystal text description, with 4.7M, 615.5M, and 3.1B tokens in total for each modality, respectively. We use LLM4Mat-Bench to fine-tune models with different sizes, including LLM-Prop and MatBERT, and provide zero-shot and few-shot prompts to evaluate the property prediction capabilities of LLM-chat-like models, including Llama, Gemma, and Mistral. The results highlight the challenges of general-purpose LLMs in materials science and the need for task-specific predictive models and task-specific instruction-tuned LLMs in materials property prediction.
- Abstract(参考訳): 大規模言語モデル(LLM)は、材料科学でますます使われている。
しかし,LCMをベースとした材料特性予測のベンチマークや標準化評価にはほとんど注意が払われておらず,進展を妨げている。
LLM4Mat-Benchは、液晶材料の特性予測におけるLCMの性能評価のための、これまでで最大のベンチマークである。
LLM4Mat-Benchは、合計で約1.9Mの結晶構造を持ち、10つの公開資料データソースから収集され、45の異なる性質を持つ。
LLM4Mat-Benchは、それぞれ4.7M、615.5M、および3.1Bのトークンを持つ結晶組成、CIF、および結晶記述の異なる入力モダリティを特徴としている。
LLM-Prop や MatBERT などサイズの異なるモデルに LLM4Mat-Bench を用い,Llama や Gemma,Mistral など LLM-Chat のようなモデルの特性予測能力を評価するためにゼロショットおよび少数ショットプロンプトを提供する。
その結果、材料科学における汎用LSMの課題と、材料特性予測におけるタスク固有予測モデルとタスク特化LDMの必要性が浮き彫りになった。
関連論文リスト
- Sampling Latent Material-Property Information From LLM-Derived Embedding Representations [0.0]
大規模言語モデル(LLM)から派生したベクトル埋め込みは、文献から潜伏した情報を取得することを約束している。
本研究では, LLM由来ベクトルが所望の情報を捕捉する範囲と, 付加的なトレーニングを伴わずに材料特性に関する洞察を提供する可能性について検討する。
論文 参考訳(メタデータ) (2024-09-18T13:22:04Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - TruthEval: A Dataset to Evaluate LLM Truthfulness and Reliability [0.0]
我々は、TruthEvalと呼ばれるベンチマークのためのセンシティブなトピックに関する難解なステートメントのキュレートしたコレクションを提示する。
これらのステートメントは手作業でキュレートされ、既知の真理値を含んでいる。
このデータセットを用いていくつかの初期分析を行い、単純な質問を理解できないという単純なタスクでLLMが失敗する事例をいくつか見出した。
論文 参考訳(メタデータ) (2024-06-04T00:01:35Z) - LLM-Ensemble: Optimal Large Language Model Ensemble Method for E-commerce Product Attribute Value Extraction [12.611106580612033]
大規模言語モデル(LLM)は多くの属性抽出タスクにおいて最先端の性能を示す。
属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルと呼ばれる新しいアルゴリズムを提案する。
提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
論文 参考訳(メタデータ) (2024-02-29T23:03:19Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - ArcMMLU: A Library and Information Science Benchmark for Large Language
Models [25.36473762494066]
本稿では,中国語のライブラリ・アンド・インフォメーション・サイエンス(LIS)ドメインに適したベンチマークであるArcMMLUを紹介する。
このベンチマークは、考古学、データ科学、図書館科学、情報科学の4つの重要なサブドメインにおいて、LLMの知識と推論能力を測定することを目的としている。
総合評価の結果,ほとんどのLLMはArcMMLUで50%以上の精度を達成するが,性能差は顕著であることがわかった。
論文 参考訳(メタデータ) (2023-11-30T16:08:04Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。