論文の概要: Pre-training via Denoising for Molecular Property Prediction
- arxiv url: http://arxiv.org/abs/2206.00133v1
- Date: Tue, 31 May 2022 22:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 08:57:16.110192
- Title: Pre-training via Denoising for Molecular Property Prediction
- Title(参考訳): 分子特性予測のためのデノイジングによる事前学習
- Authors: Sheheryar Zaidi, Michael Schaarschmidt, James Martens, Hyunjik Kim,
Yee Whye Teh, Alvaro Sanchez-Gonzalez, Peter Battaglia, Razvan Pascanu,
Jonathan Godwin
- Abstract要約: 本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
- 参考スコア(独自算出の注目度): 53.409242538744444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many important problems involving molecular property prediction from 3D
structures have limited data, posing a generalization challenge for neural
networks. In this paper, we describe a pre-training technique that utilizes
large datasets of 3D molecular structures at equilibrium to learn meaningful
representations for downstream tasks. Inspired by recent advances in noise
regularization, our pre-training objective is based on denoising. Relying on
the well-known link between denoising autoencoders and score-matching, we also
show that the objective corresponds to learning a molecular force field --
arising from approximating the physical state distribution with a mixture of
Gaussians -- directly from equilibrium structures. Our experiments demonstrate
that using this pre-training objective significantly improves performance on
multiple benchmarks, achieving a new state-of-the-art on the majority of
targets in the widely used QM9 dataset. Our analysis then provides practical
insights into the effects of different factors -- dataset sizes, model size and
architecture, and the choice of upstream and downstream datasets -- on
pre-training.
- Abstract(参考訳): 3次元構造からの分子特性予測に関わる多くの重要な問題は限られたデータを持ち、ニューラルネットワークの一般化の課題となっている。
本稿では,3次元分子構造の大規模データセットを平衡に利用して,下流タスクの有意義な表現を学習する事前学習手法について述べる。
ノイズレギュラー化の最近の進歩に触発されて,我々の事前学習の目的は騒音の除去に基づく。
また, 雑音化オートエンコーダとスコアマッチングの関係をよく知っていることから, 平衡構造から直接, 物理状態分布とガウスの混合物との近似から分子力場を学習することに対応していることを示した。
我々の実験では、この事前学習目標により、複数のベンチマークのパフォーマンスが大幅に向上し、広く使用されているqm9データセットの多くのターゲットで新たな最先端を達成することが示されています。
分析は、データセットサイズ、モデルサイズ、アーキテクチャ、上流および下流のデータセットの選択といったさまざまな要因が事前トレーニングに与える影響について、実践的な洞察を提供します。
関連論文リスト
- On Machine Learning Approaches for Protein-Ligand Binding Affinity Prediction [2.874893537471256]
本研究では,タンパク質-リガンド結合親和性予測における古典的木モデルと高度なニューラルネットワークの性能を評価する。
2次元モデルと3次元モデルを組み合わせることで、現在の最先端のアプローチを超えて、アクティブな学習結果が向上することを示す。
論文 参考訳(メタデータ) (2024-07-15T13:06:00Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - 3D Denoisers are Good 2D Teachers: Molecular Pretraining via Denoising
and Cross-Modal Distillation [65.35632020653291]
本稿では、3Dデノイザから表現を蒸留することにより、2Dグラフエンコーダを事前学習する自己教師型分子表現学習フレームワークD&Dを提案する。
D&Dは2Dグラフに基づいて3D情報を推測でき、他のベースラインに対して優れた性能とラベル効率を示す。
論文 参考訳(メタデータ) (2023-09-08T01:36:58Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Deep learning for full-field ultrasonic characterization [7.120879473925905]
本研究では、最近の機械学習の進歩を活用して、物理に基づくデータ分析プラットフォームを構築する。
直接反転と物理インフォームドニューラルネットワーク(PINN)の2つの論理について検討した。
論文 参考訳(メタデータ) (2023-01-06T05:01:05Z) - 3D Equivariant Molecular Graph Pretraining [42.957880677779556]
完全かつ新しい意味での3D分子プレトレーニングに取り組む。
まず,3次元空間の対称性を満たすことのメリットを享受する事前学習のバックボーンとして,同変エネルギーベースモデルを採用することを提案する。
大規模3DデータセットGEOM-QM9から事前学習したモデルを,MD17とQM9の2つの挑戦的な3Dベンチマークで評価した。
論文 参考訳(メタデータ) (2022-07-18T16:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。