論文の概要: Why Physics Still Matters: Improving Machine Learning Prediction of Material Properties with Phonon-Informed Datasets
- arxiv url: http://arxiv.org/abs/2511.15222v1
- Date: Wed, 19 Nov 2025 08:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.701155
- Title: Why Physics Still Matters: Improving Machine Learning Prediction of Material Properties with Phonon-Informed Datasets
- Title(参考訳): 物理が重要な理由:フォノンインフォームドデータセットによる材料特性の機械学習予測の改善
- Authors: Pol Benítez, Cibrán López, Edgardo Saucedo, Teruyasu Mizoguchi, Claudio Cazorla,
- Abstract要約: 2種類のデータセットに対して学習したグラフニューラルネットワーク(GNN)モデルの有効性を評価する。
ケーススタディでは,光電子材料の原型ファミリーの電子的および機械的特性を予測するという課題に対処する。
フォノンインフォームドモデルは、データポイントが少ないにもかかわらず、ランダムに訓練されたモデルよりも一貫して優れています。
- 参考スコア(独自算出の注目度): 0.32622301272834514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) methods have become powerful tools for predicting material properties with near first-principles accuracy and vastly reduced computational cost. However, the performance of ML models critically depends on the quality, size, and diversity of the training dataset. In materials science, this dependence is particularly important for learning from low-symmetry atomistic configurations that capture thermal excitations, structural defects, and chemical disorder, features that are ubiquitous in real materials but underrepresented in most datasets. The absence of systematic strategies for generating representative training data may therefore limit the predictive power of ML models in technologically critical fields such as energy conversion and photonics. In this work, we assess the effectiveness of graph neural network (GNN) models trained on two fundamentally different types of datasets: one composed of randomly generated atomic configurations and another constructed using physically informed sampling based on lattice vibrations. As a case study, we address the challenging task of predicting electronic and mechanical properties of a prototypical family of optoelectronic materials under realistic finite-temperature conditions. We find that the phonons-informed model consistently outperforms the randomly trained counterpart, despite relying on fewer data points. Explainability analyses further reveal that high-performing models assign greater weight to chemically meaningful bonds that control property variations, underscoring the importance of physically guided data generation. Overall, this work demonstrates that larger datasets do not necessarily yield better GNN predictive models and introduces a simple and general strategy for efficiently constructing high-quality training data in materials informatics.
- Abstract(参考訳): 機械学習(ML)手法は、ほぼ第一原理の精度と計算コストを大幅に削減した材料特性を予測する強力なツールとなっている。
しかし、MLモデルの性能はトレーニングデータセットの品質、サイズ、多様性に大きく依存する。
物質科学において、この依存は、熱励起、構造欠陥、化学障害を捉える低対称性の原子論的な構成から学ぶのに特に重要である。
代表的なトレーニングデータを生成するための体系的な戦略が存在しないことは、エネルギー変換やフォトニクスといった技術的に重要な分野におけるMLモデルの予測能力を制限する可能性がある。
本研究では, ランダムに生成した原子配置と, 格子振動に基づく物理情報を用いたサンプリングにより構築した2種類のデータセットに基づいて学習したグラフニューラルネットワーク(GNN)モデルの有効性を評価する。
ケーススタディでは、現実的な有限温度条件下での光電子材料の原型ファミリーの電子的および機械的特性を予測するという課題に対処する。
フォノンインフォームドモデルは、データポイントが少ないにもかかわらず、ランダムに訓練されたモデルよりも一貫して優れています。
説明可能性分析により、高性能モデルは、物理的に導かれたデータ生成の重要性を強調し、特性の変化を制御する化学的に有意な結合により大きな重みを割り当てることが明らかとなった。
全体として、この研究は、より大きなデータセットが必ずしもより良いGNN予測モデルをもたらすとは限らないことを示し、材料情報学における高品質なトレーニングデータを効率的に構築するためのシンプルで一般的な戦略を導入している。
関連論文リスト
- Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - Computational, Data-Driven, and Physics-Informed Machine Learning Approaches for Microstructure Modeling in Metal Additive Manufacturing [0.0]
金属添加物の製造は、前例のない設計の自由と、カスタマイズされた複雑な部品の製造を可能にする。
金属AMプロセスに固有の急激な融解と凝固のダイナミクスは、不均一で非平衡な微細構造を生成する。
空間的・時間的スケールにわたる微細構造とその進化を予測することは、プロセス最適化と欠陥軽減の重要な課題である。
論文 参考訳(メタデータ) (2025-05-02T17:59:54Z) - Data Fusion of Deep Learned Molecular Embeddings for Property Prediction [41.99844472131922]
ディープラーニングのようなデータ駆動型アプローチは、極めて精度と効率のよい材料特性の予測モデルをもたらす可能性がある。
予測を改善するために、トランスファーラーニングやマルチタスクラーニングといった技術が用いられている。
標準マルチタスクモデルは、弱い相関特性を持つスパースデータセットで訓練された場合、性能が劣る傾向にある。
本手法は、小分子の量子化学データのベンチマークデータセットと、文献および我々の量子化学および熱化学計算から収集した実験データのスパースデータセットに広く用いられている。
論文 参考訳(メタデータ) (2025-04-09T21:40:15Z) - Machine learning surrogate models of many-body dispersion interactions in polymer melts [40.83978401377059]
本稿では,高分子融液中のMBD力を予測するための機械学習サロゲートモデルを提案する。
我々のモデルは、最も関連する原子結合を選択的に保持する、トリミングされたSchNetアーキテクチャに基づいている。
高計算効率で特徴付けられるサロゲートモデルにより、大規模な分子シミュレーションにMBD効果を実践的に組み込むことが可能となる。
論文 参考訳(メタデータ) (2025-03-19T12:15:35Z) - Foundation Model for Composite Microstructures: Reconstruction, Stiffness, and Nonlinear Behavior Prediction [0.0]
短繊維複合画像の大規模コーパスで事前学習した自己教師型視覚変換器であるMaterial Masked Autoencoder (MMAE) について述べる。
i) 制限データの微調整による均質化剛性成分の予測, (ii) MMAEと相互作用に基づく物質ネットワークを結合することで物理的に解釈可能なパラメータを推定する。
論文 参考訳(メタデータ) (2024-11-10T19:06:25Z) - Pretraining Graph Transformers with Atom-in-a-Molecule Quantum Properties for Improved ADMET Modeling [38.53065398127086]
我々は,グラフトランスフォーマーの事前学習が原子レベルの量子力学特性に与える影響を評価する。
原子量子力学的性質に基づいて事前訓練されたモデルは、より低周波ラプラシアン固有モードを捕捉する。
論文 参考訳(メタデータ) (2024-10-10T15:20:30Z) - Self-supervised learning for crystal property prediction via denoising [43.148818844265236]
材料特性予測のための新たな自己教師型学習(SSL)戦略を提案する。
本手法は, 自己教師付き学習(CDSSL)の結晶化であり, 有意な材料構造を復元する前提条件付き予測モデルを事前訓練する。
CDSSLモデルがSSLなしでトレーニングされたモデル、素材タイプ、プロパティ、データセットサイズを上回るパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T12:53:40Z) - Electronic Structure Prediction of Multi-million Atom Systems Through Uncertainty Quantification Enabled Transfer Learning [5.4875371069660925]
基底状態電子密度 -- コーン・シャム密度汎関数理論(KS-DFT)シミュレーションで得られる -- は、豊富な物質情報を含んでいる。
しかし、KS-DFTの計算コストは、トレーニングデータ生成を妨害する傾向にあるシステムサイズと3倍にスケールする。
ここでは,この基本的課題に,移動学習を用いて学習データのマルチスケールな性質を活用する。
論文 参考訳(メタデータ) (2023-08-24T21:41:29Z) - Synthetic pre-training for neural-network interatomic potentials [0.0]
本研究は,ニューラルネットワークを用いた原子間ポテンシャルモデルにおいて,既存の機械学習ポテンシャルと大規模に比較して得られる合成原子構造データが有用な事前学習課題であることを示す。
一度大きな合成データセットで事前訓練すると、これらのモデルはより小さく、量子力学的なモデルに微調整され、計算の練習における数値的精度と安定性が向上する。
論文 参考訳(メタデータ) (2023-07-24T17:16:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。