論文の概要: LaMM: Semi-Supervised Pre-Training of Large-Scale Materials Models
- arxiv url: http://arxiv.org/abs/2505.22208v1
- Date: Wed, 28 May 2025 10:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.552107
- Title: LaMM: Semi-Supervised Pre-Training of Large-Scale Materials Models
- Title(参考訳): LaMM: 大規模材料モデルの半監督事前評価
- Authors: Yosuke Oyama, Yusuke Majima, Eiji Ohta, Yasufumi Sakai,
- Abstract要約: 改良された自己教師付き学習を取り入れた半教師付き事前学習手法であるLaMMと、効率的なマルチノード学習のための負荷分散アルゴリズムを提案する。
提案手法は,1つのNNPモデルをトレーニングするために,$sim$300M(3億ドル)の半ラベルサンプルの大規模データセットを効果的に活用し,速度と精度の両面で微調整性能を向上することを示した。
- 参考スコア(独自算出の注目度): 0.1999925939110439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural network potentials (NNPs) are crucial for accelerating computational materials science by surrogating density functional theory (DFT) calculations. Improving their accuracy is possible through pre-training and fine-tuning, where an NNP model is first pre-trained on a large-scale dataset and then fine-tuned on a smaller target dataset. However, this approach is computationally expensive, mainly due to the cost of DFT-based dataset labeling and load imbalances during large-scale pre-training. To address this, we propose LaMM, a semi-supervised pre-training method incorporating improved denoising self-supervised learning and a load-balancing algorithm for efficient multi-node training. We demonstrate that our approach effectively leverages a large-scale dataset of $\sim$300 million semi-labeled samples to train a single NNP model, resulting in improved fine-tuning performance in terms of both speed and accuracy.
- Abstract(参考訳): ニューラルネットワークポテンシャル(NNP)は密度汎関数理論(DFT)計算を補助することで計算材料科学の加速に不可欠である。
そこでは、NPモデルを大規模なデータセットで事前トレーニングし、小さなターゲットデータセットで微調整する。
しかし,この手法は大規模事前学習におけるDFTベースのデータセットラベルと負荷不均衡のコストが主な原因で,計算コストが高い。
これを解決するために,改良された自己教師付き学習を取り入れた半教師付き事前学習手法であるLaMMと,効率的なマルチノード学習のための負荷分散アルゴリズムを提案する。
提案手法は,1つのNNPモデルをトレーニングするために,$$\sim$300M(3億ドル)の半ラベルサンプルの大規模データセットを効果的に活用し,速度と精度の両面で微調整性能を向上することを示した。
関連論文リスト
- Prior-Fitted Networks Scale to Larger Datasets When Treated as Weak Learners [82.72552644267724]
BoostPFNは、大規模なデータセットでトレーニングサンプルと同じサイズで、標準的なPFNよりもパフォーマンスがよい。
高い性能はPFNのトレーニング前サイズの最大50倍まで維持される。
論文 参考訳(メタデータ) (2025-03-03T07:31:40Z) - Pre-training Graph Neural Networks with Structural Fingerprints for Materials Discovery [1.187456026346823]
本稿では,安価に計算された構造指紋を標的とする,新しい事前学習目標を提案する。
実験により,本手法はGNNの事前学習のための一般的な戦略として機能し,原子データに対する大規模基盤モデルへの適用が期待できる。
論文 参考訳(メタデータ) (2025-03-03T06:50:23Z) - Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。
本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文 参考訳(メタデータ) (2025-02-16T11:46:23Z) - The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。
総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。
本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文 参考訳(メタデータ) (2025-01-21T20:23:22Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs [61.13296177652599]
より小さなスケールで良好に機能するデータ混合物は、大規模なスケールではその利点を保たない可能性があることを示す。
2段階のスケール対応データ合成フレームワークであるAutoScaleを提案する。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Efficient N:M Sparse DNN Training Using Algorithm, Architecture, and
Dataflow Co-Design [15.47240906902083]
本稿では,アルゴリズム,アーキテクチャ,データフロー共設計を用いたN:MスパースDNNの計算効率向上学習手法を提案する。
アルゴリズムレベルでは、重みのN:M空間を利用するために、BDWPと呼ばれる双方向の重み決定法が提案されている。
アーキテクチャレベルでは、通常の高密度演算と計算効率のN:Mスパース演算の両方をサポートするために、DNNトレーニング用のスパースアクセラレータSATが開発された。
論文 参考訳(メタデータ) (2023-09-22T17:26:19Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Parameter estimation for WMTI-Watson model of white matter using
encoder-decoder recurrent neural network [0.0]
本研究では,ラットおよびヒト脳のデータセット上でのNLLS,RNN法および多層パーセプトロン(MLP)の性能を評価する。
提案手法は,NLLSよりも計算時間を大幅に短縮できるという利点を示した。
論文 参考訳(メタデータ) (2022-03-01T16:33:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。