論文の概要: On Data Imbalance in Molecular Property Prediction with Pre-training
- arxiv url: http://arxiv.org/abs/2308.08934v1
- Date: Thu, 17 Aug 2023 12:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 16:54:52.171392
- Title: On Data Imbalance in Molecular Property Prediction with Pre-training
- Title(参考訳): 事前学習による分子特性予測におけるデータ不均衡について
- Authors: Limin Wang, Masatoshi Hanai, Toyotaro Suzumura, Shun Takashige,
Kenjiro Taura
- Abstract要約: プレトレーニングと呼ばれるテクニックは、機械学習モデルの精度を向上させるために使用される。
事前トレーニングでは、対象タスクでモデルをトレーニングする前に、対象タスクとは異なるプレテキストタスクでモデルをトレーニングする。
本研究では,入力データの不均衡に対処する効果的な事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 16.211138511816642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Revealing and analyzing the various properties of materials is an essential
and critical issue in the development of materials, including batteries,
semiconductors, catalysts, and pharmaceuticals. Traditionally, these properties
have been determined through theoretical calculations and simulations. However,
it is not practical to perform such calculations on every single candidate
material. Recently, a combination method of the theoretical calculation and
machine learning has emerged, that involves training machine learning models on
a subset of theoretical calculation results to construct a surrogate model that
can be applied to the remaining materials. On the other hand, a technique
called pre-training is used to improve the accuracy of machine learning models.
Pre-training involves training the model on pretext task, which is different
from the target task, before training the model on the target task. This
process aims to extract the input data features, stabilizing the learning
process and improving its accuracy. However, in the case of molecular property
prediction, there is a strong imbalance in the distribution of input data and
features, which may lead to biased learning towards frequently occurring data
during pre-training. In this study, we propose an effective pre-training method
that addresses the imbalance in input data. We aim to improve the final
accuracy by modifying the loss function of the existing representative
pre-training method, node masking, to compensate the imbalance. We have
investigated and assessed the impact of our proposed imbalance compensation on
pre-training and the final prediction accuracy through experiments and
evaluations using benchmark of molecular property prediction models.
- Abstract(参考訳): 材料の諸性質の解明と分析は、電池、半導体、触媒、医薬品などの材料の開発において不可欠かつ重要な問題である。
伝統的に、これらの性質は理論計算とシミュレーションによって決定されてきた。
しかし、すべての候補材料に対してそのような計算を行うことは現実的ではない。
近年、理論計算結果のサブセット上で機械学習モデルを訓練し、残りの材料に適用可能なサロゲートモデルを構築するための理論計算と機械学習の組み合わせ法が登場している。
一方、プレトレーニングと呼ばれる手法は、機械学習モデルの精度を向上させるために用いられる。
事前トレーニングでは、対象タスクでモデルをトレーニングする前に、対象タスクとは異なるプレテキストタスクでモデルをトレーニングする。
このプロセスは、入力データの特徴を抽出し、学習プロセスを安定化し、精度を向上させることを目的としている。
しかし、分子特性予測の場合、入力データと特徴の分布には強い不均衡があり、事前学習中に頻繁に発生するデータに対する偏り学習につながる可能性がある。
本研究では,入力データの不均衡に対処する効果的な事前学習手法を提案する。
既存の代表プリトレーニング法であるノードマスキングの損失関数を変更して不均衡を補うことにより,最終精度の向上を目指す。
分子特性予測モデルのベンチマークを用いた実験と評価により,提案した不均衡補償が事前学習および最終予測精度に与える影響を検討した。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Machine learning for accuracy in density functional approximations [0.0]
密度汎関数近似の精度を向上させるために機械学習を適用した最近の進歩を概観する。
異なる化学物質と材料クラス間で伝達可能な機械学習モデルを考案する際の約束と課題について論じる。
論文 参考訳(メタデータ) (2023-11-01T00:02:09Z) - Task-Aware Machine Unlearning and Its Application in Load Forecasting [4.00606516946677]
本稿では、すでに訓練済みの予測器に対するデータセットの一部の影響を除去するために特別に設計された機械学習の概念を紹介する。
局所モデルパラメータ変化の感度を影響関数とサンプル再重み付けを用いて評価することにより,性能認識アルゴリズムを提案する。
リアルな負荷データセットを用いて,線形,CNN,Mixerベースの負荷予測器上で,未学習アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-08-28T08:50:12Z) - Is Self-Supervised Pretraining Good for Extrapolation in Molecular
Property Prediction? [16.211138511816642]
物質科学において、一般に外挿と呼ばれる未観測値の予測は、特性予測にとって重要である。
実験により,モデルが絶対的特性値の正確な外挿を行えなかったにもかかわらず,自己教師型事前学習により,観測されていない特性値の相対的傾向を学習できることを実証的に明らかにする。
論文 参考訳(メタデータ) (2023-08-16T03:38:43Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - On the Relation between Prediction and Imputation Accuracy under Missing
Covariates [0.0]
近年の研究では、計算のための現代の機械学習アルゴリズムの利用傾向が増している。
近年の研究では、計算のための現代の機械学習アルゴリズムの利用傾向が増している。
論文 参考訳(メタデータ) (2021-12-09T23:30:44Z) - Predictive machine learning for prescriptive applications: a coupled
training-validating approach [77.34726150561087]
規範的応用のための予測機械学習モデルをトレーニングするための新しい手法を提案する。
このアプローチは、標準的なトレーニング検証テストスキームの検証ステップを微調整することに基づいている。
合成データを用いたいくつかの実験は、決定論的モデルと実モデルの両方において処方料コストを削減できる有望な結果を示した。
論文 参考訳(メタデータ) (2021-10-22T15:03:20Z) - Hessian-based toolbox for reliable and interpretable machine learning in
physics [58.720142291102135]
本稿では,モデルアーキテクチャの解釈可能性と信頼性,外挿を行うためのツールボックスを提案する。
与えられたテストポイントでの予測に対する入力データの影響、モデル予測の不確実性の推定、およびモデル予測の不可知スコアを提供する。
我々の研究は、物理学やより一般的には科学に適用されたMLにおける解釈可能性と信頼性の方法の体系的利用への道を開く。
論文 参考訳(メタデータ) (2021-08-04T16:32:59Z) - Calibrated Uncertainty for Molecular Property Prediction using Ensembles
of Message Passing Neural Networks [11.47132155400871]
我々は、分子や物質の特性を予測するために特別に設計されたメッセージパッシングニューラルネットワークを拡張した。
その結果,分子生成エネルギーのキャリブレーションの不確実性を考慮した予測モデルが得られた。
論文 参考訳(メタデータ) (2021-07-13T13:28:11Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。