論文の概要: Data-Error Scaling in Machine Learning on Natural Discrete Combinatorial Mutation-prone Sets: Case Studies on Peptides and Small Molecules
- arxiv url: http://arxiv.org/abs/2405.05167v1
- Date: Wed, 8 May 2024 16:04:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 14:05:10.137626
- Title: Data-Error Scaling in Machine Learning on Natural Discrete Combinatorial Mutation-prone Sets: Case Studies on Peptides and Small Molecules
- Title(参考訳): 自然離散的コンビネート変異確率集合の機械学習におけるデータエラースケーリング : ペプチドと小分子のケーススタディ
- Authors: Vanni Doffini, O. Anatole von Lilienfeld, Michael A. Nash,
- Abstract要約: 本研究では機械学習(ML)モデルにおけるデータエラースケーリングの傾向について検討する。
典型的なデータエラースケーリングとは対照的に,学習中に不連続な単調相転移がみられた。
学習曲線を正規化するための代替戦略とミュータントに基づくシャッフルの概念を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate trends in the data-error scaling behavior of machine learning (ML) models trained on discrete combinatorial spaces that are prone-to-mutation, such as proteins or organic small molecules. We trained and evaluated kernel ridge regression machines using variable amounts of computationally generated training data. Our synthetic datasets comprise i) two na\"ive functions based on many-body theory; ii) binding energy estimates between a protein and a mutagenised peptide; and iii) solvation energies of two 6-heavy atom structural graphs. In contrast to typical data-error scaling, our results showed discontinuous monotonic phase transitions during learning, observed as rapid drops in the test error at particular thresholds of training data. We observed two learning regimes, which we call saturated and asymptotic decay, and found that they are conditioned by the level of complexity (i.e. number of mutations) enclosed in the training set. We show that during training on this class of problems, the predictions were clustered by the ML models employed in the calibration plots. Furthermore, we present an alternative strategy to normalize learning curves (LCs) and the concept of mutant based shuffling. This work has implications for machine learning on mutagenisable discrete spaces such as chemical properties or protein phenotype prediction, and improves basic understanding of concepts in statistical learning theory.
- Abstract(参考訳): 本研究では,タンパク質や有機小分子などの変異しやすい離散組合せ空間で学習した機械学習(ML)モデルのデータエラースケーリング行動の傾向について検討する。
我々は,カーネルリッジ回帰マシンを,計算によって生成された学習データの変動量を用いて訓練し,評価した。
私たちの合成データセットは
i) 多体理論に基づく2つの「機能」
二 タンパク質と変異原性ペプチドとの結合エネルギー推定
三 六重原子構造グラフの2つの溶出エネルギー
典型的なデータエラースケーリングとは対照的に,トレーニングデータの特定のしきい値におけるテストエラーの急激な低下として,学習中に不連続なモノトニック相転移が見られた。
飽和崩壊と漸近崩壊と呼ばれる2つの学習体制を観察したところ、それらはトレーニングセットに格納されている複雑さのレベル(つまり突然変異の数)によって条件付けられていることがわかった。
このクラスの課題に対するトレーニングでは,キャリブレーションプロットで使用されるMLモデルによって予測がクラスタ化されていた。
さらに,学習曲線(LC)を正規化するための代替戦略と,突然変異に基づくシャッフルの概念を提案する。
この研究は、化学特性やタンパク質表現型予測のような変異可能な離散空間における機械学習に影響を及ぼし、統計学習理論における概念の基本的な理解を改善する。
関連論文リスト
- Stacked ensemble\-based mutagenicity prediction model using multiple modalities with graph attention network [0.9736758288065405]
変異原性は、様々なネガティブな結果をもたらす遺伝子変異と関連しているため、懸念される。
本研究では,新しいアンサンブルに基づく変異原性予測モデルを提案する。
論文 参考訳(メタデータ) (2024-09-03T09:14:21Z) - Learning to Predict Mutation Effects of Protein-Protein Interactions by Microenvironment-aware Hierarchical Prompt Learning [78.38442423223832]
我々は、新しいコードブック事前学習タスク、すなわちマスク付きマイクロ環境モデリングを開発する。
突然変異効果予測において、最先端の事前学習法よりも優れた性能と訓練効率を示す。
論文 参考訳(メタデータ) (2024-05-16T03:53:21Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Uncertainty quantification for predictions of atomistic neural networks [0.0]
本稿では、量子化学参照データに基づくトレーニングニューラルネットワーク(NN)の予測における不確かさの定量化値について検討する。
PhysNet NN のアーキテクチャを好適に修正し,キャリブレーションの定量化,予測品質,予測誤差と予測不確かさの相関性を評価した。
論文 参考訳(メタデータ) (2022-07-14T13:39:43Z) - Automated analysis of continuum fields from atomistic simulations using
statistical machine learning [0.0]
我々は統計データマイニングと機械学習アルゴリズムを用いて、原子論シミュレーションにおける連続体変数の分析を自動化する手法を開発した。
本研究は, 総ひずみ, 弾性ひずみ, マイクロローテーションの3つの重要な場変数に着目した。
総ひずみ分布のピークをガウス混合モデルで同定し、オーバーフィッティング問題を回避する方法を示す。
論文 参考訳(メタデータ) (2022-06-16T10:05:43Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Biased Hypothesis Formation From Projection Pursuit [0.0]
仮説形成に対するバイアスの影響は、自動データ駆動追従ニューラルネットワークによって特徴づけられる。
このインテリジェント探索プロセスは、完全な状態空間を解離部分空間に分割し、作用仮説を作成する。
論文 参考訳(メタデータ) (2022-01-03T22:02:26Z) - Multi-scale Feature Learning Dynamics: Insights for Double Descent [71.91871020059857]
一般化誤差の「二重降下」現象について検討する。
二重降下は、異なるスケールで学習される異なる特徴に起因する可能性がある。
論文 参考訳(メタデータ) (2021-12-06T18:17:08Z) - SPLDExtraTrees: Robust machine learning approach for predicting kinase
inhibitor resistance [1.0674604700001966]
本研究では,タンパク質変異によるリガンド結合親和性の変化を正確に予測できる堅牢な機械学習手法SPLDExtraTreesを提案する。
提案手法は、学習が容易なサンプルから始まる特定のスキームに従ってトレーニングデータをランク付けする。
実験では,3つのシナリオにおいて,キナーゼ阻害剤耐性の予測法の有効性を実証した。
論文 参考訳(メタデータ) (2021-11-15T09:07:45Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。