Fugu-MT 論文翻訳(概要): LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction

論文の概要: LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction

arxiv url: http://arxiv.org/abs/2411.00177v2
Date: Fri, 08 Nov 2024 16:42:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.091104
Title: LLM4Mat-Bench: Benchmarking Large Language Models for Materials Property Prediction
Title（参考訳）: LLM4Mat-Bench: 材料特性予測のための大規模言語モデルのベンチマーク
Authors: Andre Niyongabo Rubungo, Kangming Li, Jason Hattrick-Simpers, Adji Bousso Dieng,
Abstract要約: 大規模言語モデル(LLM)は、材料科学でますます使われている。 LLM4Mat-Benchは、液晶材料の特性予測におけるLCMの性能評価のための、これまでで最大のベンチマークである。
参考スコア（独自算出の注目度）: 4.377555282482224
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are increasingly being used in materials science. However, little attention has been given to benchmarking and standardized evaluation for LLM-based materials property prediction, which hinders progress. We present LLM4Mat-Bench, the largest benchmark to date for evaluating the performance of LLMs in predicting the properties of crystalline materials. LLM4Mat-Bench contains about 1.9M crystal structures in total, collected from 10 publicly available materials data sources, and 45 distinct properties. LLM4Mat-Bench features different input modalities: crystal composition, CIF, and crystal text description, with 4.7M, 615.5M, and 3.1B tokens in total for each modality, respectively. We use LLM4Mat-Bench to fine-tune models with different sizes, including LLM-Prop and MatBERT, and provide zero-shot and few-shot prompts to evaluate the property prediction capabilities of LLM-chat-like models, including Llama, Gemma, and Mistral. The results highlight the challenges of general-purpose LLMs in materials science and the need for task-specific predictive models and task-specific instruction-tuned LLMs in materials property prediction.
Abstract（参考訳）: 大規模言語モデル(LLM)は、材料科学でますます使われている。しかし,LCMをベースとした材料特性予測のベンチマークや標準化評価にはほとんど注意が払われておらず,進展を妨げている。 LLM4Mat-Benchは、液晶材料の特性予測におけるLCMの性能評価のための、これまでで最大のベンチマークである。 LLM4Mat-Benchは、合計で約1.9Mの結晶構造を持ち、10つの公開資料データソースから収集され、45の異なる性質を持つ。 LLM4Mat-Benchは、それぞれ4.7M、615.5M、および3.1Bのトークンを持つ結晶組成、CIF、および結晶記述の異なる入力モダリティを特徴としている。 LLM-Prop や MatBERT などサイズの異なるモデルに LLM4Mat-Bench を用い,Llama や Gemma,Mistral など LLM-Chat のようなモデルの特性予測能力を評価するためにゼロショットおよび少数ショットプロンプトを提供する。その結果、材料科学における汎用LSMの課題と、材料特性予測におけるタスク固有予測モデルとタスク特化LDMの必要性が浮き彫りになった。

関連論文リスト

What do Large Language Models know about materials? [0.0]
大規模言語モデル(LLM)は、機械工学や材料科学の分野でますます応用されている。材料指紋の特異性に対する語彙とトークン化の役割を強調した。これにより、情報選択のための物質知識ベンチマークが作成され、PSPPチェーンのLCMのステップが適用できる。
論文参考訳（メタデータ） (2025-07-19T12:02:08Z)
MSQA: Benchmarking LLMs on Graduate-Level Materials Science Reasoning and Knowledge [11.472720421988184]
我々は1,757人の大学院レベルの材料科学質問に対する総合的な評価ベンチマークであるMSQAを紹介する。 MSQAは、正確な事実知識と多段階推論の両方を必要とすることで、大きな言語モデル(LLM)に挑戦する。
論文参考訳（メタデータ） (2025-05-29T20:22:57Z)
An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。本研究は,LLMのM2MS能力に関する系統的研究である。
論文参考訳（メタデータ） (2025-05-19T11:18:54Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。 LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。 LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文参考訳（メタデータ） (2025-02-15T02:55:22Z)
Foundational Large Language Models for Materials Research [22.77591279242839]
大規模言語モデル(LLM)は、自動分析と予測を通じて材料研究を加速する機会を提供する。本稿では,LLaMAモデルの継続事前学習を通じて発達した材料科学の基礎モデルであるLLaMatについて述べる。 LLaMatは、一般的な言語能力を維持しつつ、材料固有のNLPと構造化情報抽出に優れることを示した。
論文参考訳（メタデータ） (2024-12-12T18:46:38Z)
Sampling Latent Material-Property Information From LLM-Derived Embedding Representations [0.0]
大規模言語モデル(LLM)から派生したベクトル埋め込みは、文献から潜伏した情報を取得することを約束している。本研究では, LLM由来ベクトルが所望の情報を捕捉する範囲と, 付加的なトレーニングを伴わずに材料特性に関する洞察を提供する可能性について検討する。
論文参考訳（メタデータ） (2024-09-18T13:22:04Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
TruthEval: A Dataset to Evaluate LLM Truthfulness and Reliability [0.0]
我々は、TruthEvalと呼ばれるベンチマークのためのセンシティブなトピックに関する難解なステートメントのキュレートしたコレクションを提示する。これらのステートメントは手作業でキュレートされ、既知の真理値を含んでいる。このデータセットを用いていくつかの初期分析を行い、単純な質問を理解できないという単純なタスクでLLMが失敗する事例をいくつか見出した。
論文参考訳（メタデータ） (2024-06-04T00:01:35Z)
An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。 LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文参考訳（メタデータ） (2024-04-22T10:03:03Z)
LLM-Ensemble: Optimal Large Language Model Ensemble Method for E-commerce Product Attribute Value Extraction [12.611106580612033]
大規模言語モデル(LLM)は多くの属性抽出タスクにおいて最先端の性能を示す。属性値抽出のために異なるLLMの出力をアンサンブルするLLMアンサンブルと呼ばれる新しいアルゴリズムを提案する。提案手法は理論的に最適であるだけでなく,効率的な計算,高速収束,安全な配置も保証できる。
論文参考訳（メタデータ） (2024-02-29T23:03:19Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
ArcMMLU: A Library and Information Science Benchmark for Large Language Models [25.36473762494066]
本稿では,中国語のライブラリ・アンド・インフォメーション・サイエンス(LIS)ドメインに適したベンチマークであるArcMMLUを紹介する。このベンチマークは、考古学、データ科学、図書館科学、情報科学の4つの重要なサブドメインにおいて、LLMの知識と推論能力を測定することを目的としている。総合評価の結果,ほとんどのLLMはArcMMLUで50%以上の精度を達成するが,性能差は顕著であることがわかった。
論文参考訳（メタデータ） (2023-11-30T16:08:04Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。