論文の概要: Scaling Laws for Emulation of Stellar Spectra
- arxiv url: http://arxiv.org/abs/2503.18617v1
- Date: Mon, 24 Mar 2025 12:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:33:16.904498
- Title: Scaling Laws for Emulation of Stellar Spectra
- Title(参考訳): ステラースペクトルのエミュレーションのためのスケーリング法則
- Authors: Tomasz Różański, Yuan-Sen Ting,
- Abstract要約: 最適な性能を達成するために、トランスフォーマーベースのスペクトルエミュレータをスケーリングするためのトレーニングガイドラインを提供する。
この結果から,最適計算資源割り当てにはバランスの取れたスケーリングが必要であることが示唆された。
本研究は、拡張されたドメイン転送機能を持つスペクトル基底モデルを開発するための基盤を確立する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Neural network-based emulators for the inference of stellar parameters and elemental abundances represent an increasingly popular methodology in modern spectroscopic surveys. However, these approaches are often constrained by their emulation precision and domain transfer capabilities. Greater generalizability has previously been achieved only with significantly larger model architectures, as demonstrated by Transformer-based models in natural language processing. This observation aligns with neural scaling laws, where model performance predictably improves with increased model size, computational resources allocated to model training, and training data volume. In this study, we demonstrate that these scaling laws also apply to Transformer-based spectral emulators in astronomy. Building upon our previous work with TransformerPayne and incorporating Maximum Update Parametrization techniques from natural language models, we provide training guidelines for scaling models to achieve optimal performance. Our results show that within the explored parameter space, clear scaling relationships emerge. These findings suggest that optimal computational resource allocation requires balanced scaling. Specifically, given a tenfold increase in training compute, achieving an optimal seven-fold reduction in mean squared error necessitates an approximately 2.5-fold increase in dataset size and a 3.8-fold increase in model size. This study establishes a foundation for developing spectral foundational models with enhanced domain transfer capabilities.
- Abstract(参考訳): 恒星パラメータと元素量の推定のためのニューラルネットワークベースのエミュレータは、現代の分光調査でますます人気が高まっている方法論である。
しかしながら、これらのアプローチはエミュレーション精度とドメイン転送能力によって制約されることが多い。
自然言語処理においてTransformerベースのモデルで示されるように、これまでははるかに大きなモデルアーキテクチャでしか達成されていなかった。
この観察は、モデルパフォーマンスがモデルサイズの増加、モデルのトレーニングに割り当てられた計算リソース、データボリュームのトレーニングによって予測可能な改善を行うニューラルネットワークスケーリング法則と一致している。
本研究では,これらのスケーリング法則が天文学におけるトランスフォーマーベースのスペクトルエミュレータにも適用可能であることを示す。
TransformerPayneを使った以前の研究と、自然言語モデルからの最大更新パラメトリゼーション技術の導入に基づいて、最適なパフォーマンスを達成するためにモデルをスケーリングするためのトレーニングガイドラインを提供します。
その結果, パラメータ空間内では, 明確なスケーリング関係が出現することがわかった。
これらの結果は、最適な計算資源割り当てにはバランスの取れたスケーリングが必要であることを示唆している。
具体的には、トレーニング計算が10倍に増加すると、平均二乗誤差の最適7倍の削減を達成するには、データセットサイズが2.5倍、モデルサイズが3.8倍になる必要がある。
本研究は、拡張されたドメイン転送機能を持つスペクトル基底モデルを開発するための基盤を確立する。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream [3.4526439922541705]
霊長類視覚腹側流(VVS)のモデリングにおけるスケーリング法則の評価を行った。
行動アライメントはより大きなモデルでスケールし続けるが、ニューラルアライメントは飽和する。
スケーリングの増加は、少数のサンプルでトレーニングされた小さなモデルでは、アライメントが不十分である、高レベルの視覚領域において特に有益である。
論文 参考訳(メタデータ) (2024-11-08T17:13:53Z) - Uni-Mol2: Exploring Molecular Pretraining Model at Scale [27.172011090947823]
原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。
我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
論文 参考訳(メタデータ) (2024-06-21T08:28:54Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文 参考訳(メタデータ) (2023-11-06T16:20:28Z) - Turbulence in Focus: Benchmarking Scaling Behavior of 3D Volumetric
Super-Resolution with BLASTNet 2.0 Data [4.293221567339693]
圧縮性乱流の解析は、推進、エネルギー発生、環境に関する応用に不可欠である。
我々は34個の高忠実度直接数値シミュレーションから744個のフルドメインのサンプルを含む2.2TBのデータセットネットワークを提案する。
3次元超解像のための5つのディープラーニングアプローチの合計49種類のバリエーションをベンチマークする。
論文 参考訳(メタデータ) (2023-09-23T18:57:02Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。