論文の概要: Large Language Model Scaling Laws for Neural Quantum States in Quantum Chemistry
- arxiv url: http://arxiv.org/abs/2509.12679v1
- Date: Tue, 16 Sep 2025 05:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.900677
- Title: Large Language Model Scaling Laws for Neural Quantum States in Quantum Chemistry
- Title(参考訳): 量子化学におけるニューラル量子状態の大規模言語モデルスケーリング法則
- Authors: Oliver Knitter, Dan Zhao, Stefan Leichenauer, Shravan Veerapaneni,
- Abstract要約: スケール法則は、大規模言語モデル(LLM)のパフォーマンスが、モデルサイズ、トレーニングデータサイズ、計算リソースの量とどのようにスケールするかを記述するために使われてきた。
変圧器をベースとした量子状態に対する絶対誤差とVスコアによって測定された性能を予測するスケーリング法則を同定する。
モデルのサイズとトレーニング時間の関係は損失距離とアンザッツに大きく依存しており、言語モデルで見いだされるおよそ線形関係に従わないことが判明した。
- 参考スコア(独自算出の注目度): 1.693459173653219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling laws have been used to describe how large language model (LLM) performance scales with model size, training data size, or amount of computational resources. Motivated by the fact that neural quantum states (NQS) has increasingly adopted LLM-based components, we seek to understand NQS scaling laws, thereby shedding light on the scalability and optimal performance--resource trade-offs of NQS ansatze. In particular, we identify scaling laws that predict the performance, as measured by absolute error and V-score, for transformer-based NQS as a function of problem size in second-quantized quantum chemistry applications. By performing analogous compute-constrained optimization of the obtained parametric curves, we find that the relationship between model size and training time is highly dependent on loss metric and ansatz, and does not follow the approximately linear relationship found for language models.
- Abstract(参考訳): スケール法則は、大規模言語モデル(LLM)のパフォーマンスが、モデルサイズ、トレーニングデータサイズ、計算リソースの量とどのようにスケールするかを記述するために使われてきた。
ニューラル量子状態(NQS)がLLMベースのコンポーネントをますます採用しているという事実に触発され、我々はNQSスケーリング法則を理解し、NQSのスケーラビリティと最適なパフォーマンスに光を当てようとしている。
特に,第2量子化量子化学応用における問題サイズ関数として,変圧器に基づくNQSの絶対誤差とVスコアで測定された性能を予測するスケーリング法則を同定する。
得られたパラメトリック曲線の計算制約に類似した最適化を行うことにより、モデルサイズとトレーニング時間の関係は損失距離とアンザッツに大きく依存し、言語モデルで見いだされた概線型関係に従わないことがわかった。
関連論文リスト
- GWQ: Gradient-Aware Weight Quantization for Large Language Models [56.22507677736051]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。
LLMを低ビットに圧縮することで、リソース制約のあるデバイスにデプロイできる。
低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:16:04Z) - Scaling Laws for Post Training Quantized Large Language Models [41.78467383320145]
良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。
後処理後圧縮後のLCMの品質は予測不可能であり,ケースバイケースの検証が必要となることが多い。
論文 参考訳(メタデータ) (2024-10-15T23:34:22Z) - Scaling Laws For Mixed Quantization [14.27345780977423]
大規模言語モデル(LLM)の学習後の量子化は、推論のメモリと計算要求を減らすのに有効であることが証明されている。
量子化比(Q_r$)と量子化ブロックサイズ(Q_b$)という2つの重要な指標を導入する。
本稿では,学習後量子化(PTQ)に関する統一的なスケーリング法則を提案する。
論文 参考訳(メタデータ) (2024-10-09T09:45:01Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Towards Neural Variational Monte Carlo That Scales Linearly with System
Size [67.09349921751341]
量子多体問題(Quantum many-body problem)は、例えば高温超伝導体のようなエキゾチックな量子現象をデミストする中心である。
量子状態を表すニューラルネットワーク(NN)と変分モンテカルロ(VMC)アルゴリズムの組み合わせは、そのような問題を解決する上で有望な方法であることが示されている。
ベクトル量子化技術を用いて,VMCアルゴリズムの局所エネルギー計算における冗長性を利用するNNアーキテクチャVector-Quantized Neural Quantum States (VQ-NQS)を提案する。
論文 参考訳(メタデータ) (2022-12-21T19:00:04Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。