論文の概要: Uncovering Neural Scaling Laws in Molecular Representation Learning
- arxiv url: http://arxiv.org/abs/2309.15123v2
- Date: Thu, 28 Sep 2023 01:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 19:41:50.180342
- Title: Uncovering Neural Scaling Laws in Molecular Representation Learning
- Title(参考訳): 分子表現学習における神経スケーリング則の解明
- Authors: Dingshuo Chen, Yanqiao Zhu, Jieyu Zhang, Yuanqi Du, Zhixun Li, Qiang
Liu, Shu Wu, Liang Wang
- Abstract要約: 分子表現学習(MRL)は、薬物や物質発見のための強力なツールとして登場した。
本稿では,データ中心の観点からMRLのニューラルスケーリング挙動を探索する。
本研究は,データ中心型MRLの重要性と今後の研究の方向性を明らかにするものである。
- 参考スコア(独自算出の注目度): 38.917501371050626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Molecular Representation Learning (MRL) has emerged as a powerful tool for
drug and materials discovery in a variety of tasks such as virtual screening
and inverse design. While there has been a surge of interest in advancing
model-centric techniques, the influence of both data quantity and quality on
molecular representations is not yet clearly understood within this field. In
this paper, we delve into the neural scaling behaviors of MRL from a
data-centric viewpoint, examining four key dimensions: (1) data modalities, (2)
dataset splitting, (3) the role of pre-training, and (4) model capacity. Our
empirical studies confirm a consistent power-law relationship between data
volume and MRL performance across these dimensions. Additionally, through
detailed analysis, we identify potential avenues for improving learning
efficiency. To challenge these scaling laws, we adapt seven popular data
pruning strategies to molecular data and benchmark their performance. Our
findings underline the importance of data-centric MRL and highlight possible
directions for future research.
- Abstract(参考訳): 分子表現学習(MRL)は、仮想スクリーニングや逆設計といった様々なタスクにおいて、薬物や材料発見のための強力なツールとして登場した。
モデル中心技術の発展への関心は高まっているが、データ量と品質が分子表現に与える影響は、この分野においてまだ明確には分かっていない。
本稿では,データ中心の観点からMRLのニューラルスケーリング挙動を探索し,(1)データモダリティ,(2)データセット分割,(3)事前学習の役割,(4)モデルキャパシティの4つの重要な次元について検討する。
実験により,データボリュームとMRL性能の整合性について検証した。
さらに,詳細な分析結果から,学習効率向上への道筋を見出した。
これらのスケーリング法則に挑戦するため、分子データに7つの一般的なデータプルーニング戦略を適用し、その性能をベンチマークする。
本研究は,データ中心型MRLの重要性と今後の研究の方向性を明らかにするものである。
関連論文リスト
- Improving Molecular Modeling with Geometric GNNs: an Empirical Study [56.52346265722167]
本稿では,異なる標準化手法,(2)グラフ作成戦略,(3)補助的なタスクが性能,拡張性,対称性の強制に与える影響に焦点をあてる。
本研究の目的は,分子モデリングタスクに最適なモデリングコンポーネントの選択を研究者に案内することである。
論文 参考訳(メタデータ) (2024-07-11T09:04:12Z) - Impact of Domain Knowledge and Multi-Modality on Intelligent Molecular Property Prediction: A Systematic Survey [22.73437302209673]
様々なベンチマークに基づいて,近年のディープラーニング手法を検証,定量的に分析する。
分子情報の統合は、回帰処理と分類処理の両方において分子特性予測(MPP)を大幅に改善する。
また、1D SMILESによる2Dグラフの強化により、回帰タスクのマルチモーダル学習性能が最大9.1%向上し、3D情報による2Dグラフの増大により、分類タスクのパフォーマンスが最大13.2%向上することを発見した。
論文 参考訳(メタデータ) (2024-02-11T17:29:58Z) - MolTC: Towards Molecular Relational Modeling In Language Models [28.960416816491392]
分子間相互作用予測のための新しい枠組みとして,分子間相互作用予測法(分子間相互作用予測法)を提案する。
我々の実験は4000,000以上の分子対を含む様々なデータセットで実施され、現在のGNNおよびLLMベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-02-06T07:51:56Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Learning inducing points and uncertainty on molecular data by scalable
variational Gaussian processes [0.0]
分子記述子空間における誘導点の変動学習は、2つの分子動力学データセット上でのエネルギーと原子力の予測を改善することを示す。
本研究は大規模分子結晶系に拡張し, データセットのスパース表現を効率よく学習することにより, 原子間力の予測に優れた変動GPモデルを示す。
論文 参考訳(メタデータ) (2022-07-16T10:41:41Z) - Graph-based Molecular Representation Learning [59.06193431883431]
分子表現学習(MRL)は、機械学習と化学科学を結びつけるための重要なステップである。
近年、MRLは、特に深層分子グラフ学習に基づく手法において、かなりの進歩を遂げている。
論文 参考訳(メタデータ) (2022-07-08T17:43:20Z) - Data-Efficient Learning via Minimizing Hyperspherical Energy [48.47217827782576]
本稿では,少数の代表データを用いたスクラッチからのデータ効率学習の問題について考察する。
我々は,MHEに基づくアクティブラーニング(MHEAL)アルゴリズムを提案し,MHEALの包括的な理論的保証を提供する。
論文 参考訳(メタデータ) (2022-06-30T11:39:12Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。