論文の概要: Training a Foundation Model for Materials on a Budget
- arxiv url: http://arxiv.org/abs/2508.16067v1
- Date: Fri, 22 Aug 2025 03:38:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.241122
- Title: Training a Foundation Model for Materials on a Budget
- Title(参考訳): 予算における材料基礎モデルの訓練
- Authors: Teddy Koker, Tess Smidt,
- Abstract要約: JAXで構築されたNequixは700Kパラメータを持ち、500 A100-GPU時間でトレーニングされた。
Matbench-DiscoveryとMDR Phononのベンチマークでは、Nequixは他のほとんどの方法のトレーニングコストの4分の1未満を必要としながら、総合3位にランクインしている。
- 参考スコア(独自算出の注目度): 2.073010779746339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models for materials modeling are advancing quickly, but their training remains expensive, often placing state-of-the-art methods out of reach for many research groups. We introduce Nequix, a compact E(3)-equivariant potential that pairs a simplified NequIP design with modern training practices, including equivariant root-mean-square layer normalization and the Muon optimizer, to retain accuracy while substantially reducing compute requirements. Built in JAX, Nequix has 700K parameters and was trained in 500 A100-GPU hours. On the Matbench-Discovery and MDR Phonon benchmarks, Nequix ranks third overall while requiring less than one quarter of the training cost of most other methods, and it delivers an order-of-magnitude faster inference speed than the current top-ranked model. We release model weights and fully reproducible codebase at https://github.com/atomicarchitects/nequix
- Abstract(参考訳): 材料モデリングの基礎モデルは急速に進歩しているが、その訓練は高価であり、多くの研究グループでは最先端の手法が普及していないことが多い。
我々は,NequixというコンパクトなE(3)同変ポテンシャルを導入し,単純化されたNequIP設計と,同変のルート平均二乗層正規化とミューオンオプティマイザを含む現代のトレーニングプラクティスを組み合わせて,計算要求を大幅に低減しながら精度を維持する。
JAXで構築されたNequixは700Kパラメータを持ち、500 A100-GPU時間でトレーニングされた。
Matbench-DiscoveryとMDR Phononのベンチマークでは、Nequixは他のほとんどの方法のトレーニングコストの4分の1を必要とせず、総合的に3位にランクインしている。
モデルウェイトと完全に再現可能なコードベースをhttps://github.com/atomicarchitects/nequixでリリースしています。
関連論文リスト
- Muon is Scalable for LLM Training [50.68746986439438]
MoE(Mixture-of-Expert)モデルであるMoonlightを紹介する。
我々のモデルは現在のフロンティアを改善し、以前のモデルに比べてトレーニングのFLOPをはるかに少なくして、より良いパフォーマンスを実現しています。
メモリ最適化と通信効率のよい分散 Muon 実装をオープンソースとして公開しています。
論文 参考訳(メタデータ) (2025-02-24T09:12:29Z) - Llama 3 Meets MoE: Efficient Upcycling [1.8337958765930928]
本研究では,Llama 3-8B から 8-Expert Top-2 MoE モデルをトレーニングし,事前学習の典型的な計算値の 1% 以下で,事前学習した高密度チェックポイントを活用する効率的なトレーニングレシピを提案する。
提案手法は,学術ベンチマークのダウンストリーム性能を向上し,MMLUの0ショット精度を$textbf2%で向上させる。
トレーニング済み重量をシームレスに使用するために、NeMoのオンラインアップサイクルも統合し、高容量のMoEモデルの開発に費用対効果が期待できる。
論文 参考訳(メタデータ) (2024-12-13T08:22:19Z) - Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [3.195234044113248]
ネットワークプルーニングのためのemphtop-upアルゴリズムであるtextscNeuroALを提案する。
これは、高密度モデルとスパースバージョンの両方から情報を利用するブロックワイドと行ワイドのスパース性を変更する。
パフォーマンスと実行時のトレードオフの観点から、最新の最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2024-11-11T15:30:16Z) - DεpS: Delayed ε-Shrinking for Faster Once-For-All Training [8.199430861588919]
CNNは、さまざまなハードウェア、動的環境、低消費電力組み込みデバイスにデプロイされるようになっている。
一度限りのトレーニングは、多くのモデル(サブネット)を一定のトレーニングコストで同時にトレーニングする、スケーラブルなアプローチとして現れました。
Delayed $epsilon$-Shrinking (D$epsilon$pS)を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:45:40Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Not All Models Are Equal: Predicting Model Transferability in a
Self-challenging Fisher Space [51.62131362670815]
本稿では、トレーニング済みのディープニューラルネットワークのランク付けと、下流タスクにおける最も転送可能なニューラルネットワークのスクリーニングの問題に対処する。
textbfSelf-challenging textbfFisher textbfDiscriminant textbfAnalysis (textbfSFDA)と呼ばれる新しい転送可能性指標を提案する。
論文 参考訳(メタデータ) (2022-07-07T01:33:25Z) - LogME: Practical Assessment of Pre-trained Models for Transfer Learning [80.24059713295165]
最大エビデンス対数(logme)は、転送学習のための事前学習されたモデルを評価するために用いられる。
ブルートフォースの微調整と比較して、LogMEはウォールクロックタイムで3000times$のスピードアップをもたらします。
論文 参考訳(メタデータ) (2021-02-22T13:58:11Z) - MACER: Attack-free and Scalable Robust Training via Maximizing Certified
Radius [133.47492985863136]
敵対的トレーニングは、堅牢なモデルを学習する最も一般的な方法の1つだが、通常は攻撃に依存し、コストがかかる。
敵の訓練を使わずに頑健なモデルを学習するMACERアルゴリズムを提案する。
すべてのタスクに対してMACERは、最先端の対人訓練アルゴリズムよりもトレーニング時間が少ない。
論文 参考訳(メタデータ) (2020-01-08T05:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。