論文の概要: Is Self-Supervised Pretraining Good for Extrapolation in Molecular
Property Prediction?
- arxiv url: http://arxiv.org/abs/2308.08129v1
- Date: Wed, 16 Aug 2023 03:38:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 15:04:20.595370
- Title: Is Self-Supervised Pretraining Good for Extrapolation in Molecular
Property Prediction?
- Title(参考訳): 自己監督型プレトレーニングは分子特性予測に有効か?
- Authors: Shun Takashige, Masatoshi Hanai, Toyotaro Suzumura, Limin Wang and
Kenjiro Taura
- Abstract要約: 物質科学において、一般に外挿と呼ばれる未観測値の予測は、特性予測にとって重要である。
実験により,モデルが絶対的特性値の正確な外挿を行えなかったにもかかわらず,自己教師型事前学習により,観測されていない特性値の相対的傾向を学習できることを実証的に明らかにする。
- 参考スコア(独自算出の注目度): 16.211138511816642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prediction of material properties plays a crucial role in the development
and discovery of materials in diverse applications, such as batteries,
semiconductors, catalysts, and pharmaceuticals. Recently, there has been a
growing interest in employing data-driven approaches by using machine learning
technologies, in combination with conventional theoretical calculations. In
material science, the prediction of unobserved values, commonly referred to as
extrapolation, is particularly critical for property prediction as it enables
researchers to gain insight into materials beyond the limits of available data.
However, even with the recent advancements in powerful machine learning models,
accurate extrapolation is still widely recognized as a significantly
challenging problem. On the other hand, self-supervised pretraining is a
machine learning technique where a model is first trained on unlabeled data
using relatively simple pretext tasks before being trained on labeled data for
target tasks. As self-supervised pretraining can effectively utilize material
data without observed property values, it has the potential to improve the
model's extrapolation ability. In this paper, we clarify how such
self-supervised pretraining can enhance extrapolation performance.We propose an
experimental framework for the demonstration and empirically reveal that while
models were unable to accurately extrapolate absolute property values,
self-supervised pretraining enables them to learn relative tendencies of
unobserved property values and improve extrapolation performance.
- Abstract(参考訳): 材料特性の予測は、電池、半導体、触媒、医薬品などの様々な用途における材料の開発と発見において重要な役割を担っている。
近年,従来の理論計算と組み合わせて,機械学習技術を用いてデータ駆動型アプローチを採用することへの関心が高まっている。
物質科学において、一般に外挿(extrapolation)と呼ばれる未観測値の予測は、研究者が利用可能なデータの範囲を超えて材料についての洞察を得ることを可能にするため、特に特性予測において重要である。
しかし、最近の強力な機械学習モデルの進歩にもかかわらず、正確な外挿は依然としてかなり難しい問題として広く認識されている。
一方、自己教師付き事前学習は、ターゲットタスクのラベル付きデータでトレーニングされる前に、比較的単純なプリテキストタスクを使用して、モデルがラベル付きデータでトレーニングされる機械学習技術である。
自己教師付き事前学習は、観測された特性値なしで物質データを効果的に活用できるため、モデルの外挿能力を向上させる可能性がある。
本稿では,このような自己教師型事前学習が外挿性能を向上させる方法を明らかにするとともに,実験モデルでは絶対的な特性値の正確な外挿ができないが,自己教師型事前学習では,観測されていない特性値の相対的傾向を学習し,外挿性能を向上させることができることを実証的に明らかにする。
関連論文リスト
- Imputation for prediction: beware of diminishing returns [12.424671213282256]
失敗の値はさまざまな分野に分散しており、予測モデルをトレーニングしデプロイする上での課題を提起している。
最近の理論的および実証的な研究は、単純な定数計算が一貫性と競争力を持つことを示唆している。
本研究の目的は, 先進的な計算手法への投資が, 予測精度を著しく向上させるかどうかを明らかにすることである。
論文 参考訳(メタデータ) (2024-07-29T09:01:06Z) - On Data Imbalance in Molecular Property Prediction with Pre-training [16.211138511816642]
プレトレーニングと呼ばれるテクニックは、機械学習モデルの精度を向上させるために使用される。
事前トレーニングでは、対象タスクでモデルをトレーニングする前に、対象タスクとは異なるプレテキストタスクでモデルをトレーニングする。
本研究では,入力データの不均衡に対処する効果的な事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T12:04:14Z) - Improving Adaptive Conformal Prediction Using Self-Supervised Learning [72.2614468437919]
我々は、既存の予測モデルの上に自己教師付きプレテキストタスクを持つ補助モデルを訓練し、自己教師付きエラーを付加的な特徴として用いて、非整合性スコアを推定する。
合成データと実データの両方を用いて、効率(幅)、欠陥、共形予測間隔の超過といった付加情報の利点を実証的に実証する。
論文 参考訳(メタデータ) (2023-02-23T18:57:14Z) - On the contribution of pre-trained models to accuracy and utility in
modeling distributed energy resources [0.0]
本研究では,微調整の有無にかかわらず,事前学習モデルによる予測精度の向上を評価する。
事前学習されたモデルは異種エージェントに等しく改善するのだろうか。
論文 参考訳(メタデータ) (2023-02-22T22:29:40Z) - Interpretable Self-Aware Neural Networks for Robust Trajectory
Prediction [50.79827516897913]
本稿では,意味概念間で不確実性を分散する軌道予測のための解釈可能なパラダイムを提案する。
実世界の自動運転データに対する我々のアプローチを検証し、最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-16T06:28:20Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Assigning Confidence to Molecular Property Prediction [1.015785232738621]
機械学習は、既存のデータセットから学び、目に見えない分子の予測を実行する強力な戦略として登場した。
薬物設計に関連する分子特性を予測するための一般的な戦略、それに対応する不確実性源および不確実性および信頼性を定量化する方法について議論する。
論文 参考訳(メタデータ) (2021-02-23T01:03:48Z) - Statistical learning for accurate and interpretable battery lifetime
prediction [1.738360170201861]
バッテリー寿命予測のためのシンプルで正確で解釈可能なデータ駆動モデルを開発した。
我々のアプローチは、新しいデータセットのモデルを迅速にトレーニングし、より高度な機械学習メソッドのパフォーマンスをベンチマークするためにも使用できます。
論文 参考訳(メタデータ) (2021-01-06T06:05:24Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。