論文の概要: Unveiling Scaling Behaviors in Molecular Language Models: Effects of Model Size, Data, and Representation
- arxiv url: http://arxiv.org/abs/2601.22757v1
- Date: Fri, 30 Jan 2026 09:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.353178
- Title: Unveiling Scaling Behaviors in Molecular Language Models: Effects of Model Size, Data, and Representation
- Title(参考訳): 分子言語モデルにおけるスケーリングの展開行動:モデルのサイズ,データ,表現の影響
- Authors: Dong Xu, Qihua Pan, Sisi Yuan, Jianqiang Li, Zexuan Zhu, Junkai Ji,
- Abstract要約: 本研究では,分子言語モデルの事前学習タスクと下流タスクのスケーリング挙動について検討する。
以上の結果から,分子モデルにおける前処理および下流輸送のスケーリング則が明らかとなった。
我々は,分子言語モデルとしてこれまでで最大のライブラリをリリースし,今後の研究開発を促進する。
- 参考スコア(独自算出の注目度): 18.008217765253274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular generative models, often employing GPT-style language modeling on molecular string representations, have shown promising capabilities when scaled to large datasets and model sizes. However, it remains unclear and subject to debate whether these models adhere to predictable scaling laws under fixed computational budgets, which is a crucial understanding for optimally allocating resources between model size, data volume, and molecular representation. In this study, we systematically investigate the scaling behavior of molecular language models across both pretraining and downstream tasks. We train 300 models and conduct over 10,000 experiments, rigorously controlling compute budgets while independently varying model size, number of training tokens, and molecular representation. Our results demonstrate clear scaling laws in molecular models for both pretraining and downstream transfer, reveal the substantial impact of molecular representation on performance, and explain previously observed inconsistencies in scaling behavior for molecular generation. Additionally, we publicly release the largest library of molecular language models to date to facilitate future research and development. Code and models are available at https://github.com/SZU-ADDG/MLM-Scaling.
- Abstract(参考訳): 分子生成モデルは、しばしばGPTスタイルの言語モデリングを分子文字列表現に用いており、大きなデータセットやモデルサイズにスケールすると有望な能力を示す。
しかしながら、これらのモデルが固定された計算予算の下で予測可能なスケーリング法則に従うかどうかについては、まだ不明であり、モデルサイズ、データ体積、分子表現の間のリソースを最適に割り当てるための重要な理解である。
本研究では,前処理と下流処理の両方において,分子言語モデルのスケーリング挙動を系統的に検討する。
300のモデルをトレーニングし、1万以上の実験を行い、計算予算を厳格に制御し、モデルサイズ、トレーニングトークンの数、分子表現を独立して変更します。
本研究は,分子モデルにおける前処理と下流処理の両方のスケーリング則を明らかにし,分子表現が性能に与える影響を明らかにした。
さらに,分子言語モデルとしてこれまでで最大のライブラリを公開し,今後の研究開発を促進する。
コードとモデルはhttps://github.com/SZU-ADDG/MLM-Scaling.comで公開されている。
関連論文リスト
- NovoMolGen: Rethinking Molecular Language Model Pretraining [14.403924658046806]
我々は、デノボ分子生成のための15億分子を事前訓練したトランスフォーマーベースの基礎モデルであるNovoMolGenを紹介する。
実験的な分析により,事前学習中の測定値と実際の下流のパフォーマンスとの間には弱い相関関係が認められた。
NovoMolGenは、新しい最先端の結果を確立し、制約のない分子生成タスクとゴール指向の分子生成タスクの両方において、Moll-LLMや特殊生成モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-19T00:04:48Z) - Uni-Mol2: Exploring Molecular Pretraining Model at Scale [27.172011090947823]
原子レベル, グラフレベル, 幾何学構造レベルを統合した分子事前学習モデルUni-Mol2を提案する。
我々は8億のコンフォメーションを事前トレーニングすることで、Uni-Mol2を11億のパラメータに拡張することに成功し、これまでで最大の分子前訓練モデルとなった。
論文 参考訳(メタデータ) (2024-06-21T08:28:54Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Molecule Design by Latent Space Energy-Based Modeling and Gradual
Distribution Shifting [53.44684898432997]
化学的・生物学的性質が望ましい分子の生成は、薬物発見にとって重要である。
本稿では,分子の結合分布とその特性を捉える確率的生成モデルを提案する。
本手法は種々の分子設計タスクにおいて非常に強力な性能を発揮する。
論文 参考訳(メタデータ) (2023-06-09T03:04:21Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Supervised Pretraining for Molecular Force Fields and Properties
Prediction [16.86839767858162]
本研究では, 原子電荷と3次元ジオメトリーを入力とし, 分子エネルギーをラベルとする8800万分子のデータセット上で, ニューラルネットワークを事前学習することを提案する。
実験により、スクラッチからのトレーニングと比較して、事前訓練されたモデルを微調整すると、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスが大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-11-23T08:36:50Z) - Unraveling Key Elements Underlying Molecular Property Prediction: A
Systematic Study [27.56700461408765]
分子特性予測の根底にある重要な要素はほとんど未発見のままである。
我々は,MoreculeNetデータセット上の様々な表現を用いて,代表モデルの広範囲な評価を行う。
合計で62,820モデル、固定表現の50,220モデル、SMILES配列の4,200モデル、分子グラフの8,400モデルを含む訓練を行った。
論文 参考訳(メタデータ) (2022-09-26T14:07:59Z) - Learning Neural Generative Dynamics for Molecular Conformation
Generation [89.03173504444415]
分子グラフから分子コンフォメーション(つまり3d構造)を生成する方法を検討した。
分子グラフから有効かつ多様なコンフォーメーションを生成する新しい確率論的枠組みを提案する。
論文 参考訳(メタデータ) (2021-02-20T03:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。