論文の概要: Probing Materials Knowledge in LLMs: From Latent Embeddings to Reliable Predictions
- arxiv url: http://arxiv.org/abs/2603.01834v1
- Date: Mon, 02 Mar 2026 13:09:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.881534
- Title: Probing Materials Knowledge in LLMs: From Latent Embeddings to Reliable Predictions
- Title(参考訳): LLMにおける材料知識の探索:潜伏埋め込みから信頼性予測へ
- Authors: Vineeth Venugopal, Soroush Mahjoubi, Elsa Olivetti,
- Abstract要約: 4つの材料科学課題にまたがる25の大規模言語モデルを評価する。
シンボリックなタスクでは、微調整は応答エントロピーの減少を伴う一貫した検証可能な答えに収束する。
数値計算では、微調整により予測精度が向上するが、モデルは繰り返しの推論実行と矛盾しないままである。
- 参考スコア(独自算出の注目度): 1.2002388504997537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly applied to materials science, yet fundamental questions remain about their reliability and knowledge encoding. Evaluating 25 LLMs across four materials science tasks -- over 200 base and fine-tuned configurations -- we find that output modality fundamentally determines model behavior. For symbolic tasks, fine-tuning converges to consistent, verifiable answers with reduced response entropy, while for numerical tasks, fine-tuning improves prediction accuracy but models remain inconsistent across repeated inference runs, limiting their reliability as quantitative predictors. For numerical regression, we find that better performance can be obtained by extracting embeddings directly from intermediate transformer layers than from model text output, revealing an ``LLM head bottleneck,'' though this effect is property- and dataset-dependent. Finally, we present a longitudinal study of GPT model performance in materials science, tracking four models over 18 months and observing 9--43\% performance variation that poses reproducibility challenges for scientific applications.
- Abstract(参考訳): 大規模言語モデルは材料科学にますます応用されているが、その信頼性と知識の符号化に関する根本的な疑問は残る。
4つの材料科学タスク(200以上のベースと微調整された構成)にわたる25のLLMを評価することで、出力モダリティがモデル動作を根本的に決定することがわかった。
シンボリックなタスクでは、微調整は応答エントロピーを減らした一貫性のある検証可能な解に収束し、数値的なタスクでは微調整は予測精度を改善するが、反復的な推論の実行でモデルが矛盾し、その信頼性を定量的予測器として制限する。
数値回帰では、モデルテキストの出力よりも中間変換器層から直接埋め込みを抽出し、「LLMヘッドボトルネック」を明らかにすることにより、この効果は特性に依存し、データセットに依存して得られる。
最後に,材料科学におけるGPTモデルの性能について縦断的研究を行い,4つのモデルが18ヶ月にわたって追跡され,9-43 %の性能変化が観察され,科学的応用に再現性の課題が生じることを示した。
関連論文リスト
- Benchmarking GNNs for OOD Materials Property Prediction with Uncertainty Quantification [4.2576347479313394]
MatUQは、アウト・オブ・ディストリビューション(OOD)の材料特性予測に基づいてグラフニューラルネットワーク(GNN)を評価するためのベンチマークフレームワークである。
MatUQは、5つのOFMベースと、新たに提案された構造認識分割戦略を用いて、6つの材料データセットから構築された1,375のOOD予測タスクから構成される。
論文 参考訳(メタデータ) (2025-11-12T11:15:24Z) - Characterizing Model Behavior Under Synthetic Data Training: An Empirical Study Across Scales and Mixing Ratios [1.631115063641726]
本稿では, モデル性能, キャリブレーション, 出力特性を, 各種合成・外部データ比で学習した場合に比較検討する。
モデルが最大20%の合成データで安定した性能を維持するが、劣化は30%以上加速する。
80%以上の外部データを維持するSTaRやセルフインストラクトシステムで採用されている現在のベストプラクティスは、我々の実験によって特定された安全な体制の中でうまく機能する。
論文 参考訳(メタデータ) (2025-10-01T03:28:01Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。
最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。
モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文 参考訳(メタデータ) (2021-10-18T17:55:11Z) - Back2Future: Leveraging Backfill Dynamics for Improving Real-time
Predictions in Future [73.03458424369657]
公衆衛生におけるリアルタイム予測では、データ収集は簡単で要求の多いタスクである。
過去の文献では「バックフィル」現象とそのモデル性能への影響についてはほとんど研究されていない。
我々は、与えられたモデルの予測をリアルタイムで洗練することを目的とした、新しい問題とニューラルネットワークフレームワークBack2Futureを定式化する。
論文 参考訳(メタデータ) (2021-06-08T14:48:20Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Bayesian Neural Networks for Virtual Flow Metering: An Empirical Study [0.0]
ベイズニューラルネットワークに基づく確率的VFMを提示することにより,データ駆動型仮想フローメータの開発に寄与する。
5つの石油・ガス資産にまたがる60の井戸からなる大規模で異質なデータセットをモデル化し,本手法について検討した。
予測性能は過去のテストデータと将来のテストデータに基づいて分析され,50%の性能モデルの平均誤差は5~6%,9~13%となる。
論文 参考訳(メタデータ) (2021-02-02T09:05:19Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。