論文の概要: On the Interplay of Subset Selection and Informed Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2306.10066v1
- Date: Thu, 15 Jun 2023 09:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:30:30.722647
- Title: On the Interplay of Subset Selection and Informed Graph Neural Networks
- Title(参考訳): サブセット選択とインフォームドグラフニューラルネットワークの相互作用について
- Authors: Niklas Breustedt, Paolo Climaco, Jochen Garcke, Jan Hamaekers, Gitta
Kutyniok, Dirk A. Lorenz, Rick Oerder, Chirag Varun Shukla
- Abstract要約: この研究は、QM9データセットにおける分子の原子化エネルギーの予測に焦点を当てている。
トレーニングセット選択過程における分子多様性の最大化は,線形回帰法および非線形回帰法のロバスト性を高めることを示す。
また、モデルに依存しない説明器を用いて、グラフニューラルネットワークによる予測の信頼性を確認する。
- 参考スコア(独自算出の注目度): 3.091456764812509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning techniques paired with the availability of massive datasets
dramatically enhance our ability to explore the chemical compound space by
providing fast and accurate predictions of molecular properties. However,
learning on large datasets is strongly limited by the availability of
computational resources and can be infeasible in some scenarios. Moreover, the
instances in the datasets may not yet be labelled and generating the labels can
be costly, as in the case of quantum chemistry computations. Thus, there is a
need to select small training subsets from large pools of unlabelled data
points and to develop reliable ML methods that can effectively learn from small
training sets. This work focuses on predicting the molecules atomization energy
in the QM9 dataset. We investigate the advantages of employing domain
knowledge-based data sampling methods for an efficient training set selection
combined with informed ML techniques. In particular, we show how maximizing
molecular diversity in the training set selection process increases the
robustness of linear and nonlinear regression techniques such as kernel methods
and graph neural networks. We also check the reliability of the predictions
made by the graph neural network with a model-agnostic explainer based on the
rate distortion explanation framework.
- Abstract(参考訳): 大規模なデータセットの可用性と組み合わせた機械学習技術は、分子特性の高速かつ正確な予測を提供することで、化学化合物空間を探索する能力を大幅に向上します。
しかし、大規模なデータセットでの学習は計算資源の可用性によって強く制限され、いくつかのシナリオでは実現不可能である。
さらに、データセットのインスタンスはまだラベル付けされておらず、量子化学計算のようにラベルを生成するのにコストがかかる。
したがって、ラベルのない大量のデータポイントから小さなトレーニングサブセットを選択し、小さなトレーニングセットから効果的に学習できる信頼性の高いMLメソッドを開発する必要がある。
この研究は、QM9データセットにおける分子の原子化エネルギーの予測に焦点を当てている。
情報ML手法と組み合わせた効率的なトレーニングセット選択のためのドメイン知識に基づくデータサンプリング手法の利点を検討する。
特に,訓練集合選択過程における分子多様性を最大化することで,カーネル法やグラフニューラルネットワークといった線形および非線形回帰手法の頑健性が向上することを示す。
また,モデルに依存しない説明手法を用いて,グラフニューラルネットワークによる予測の信頼性を確認する。
関連論文リスト
- Enhanced sampling of robust molecular datasets with uncertainty-based
collective variables [0.0]
化学関連データポイントの取得を導くために,不確実性を集合変数(CV)として活用する手法を提案する。
このアプローチでは、1つのモデルからのガウス混合モデルに基づく不確実性測定を、偏りのある分子動力学シミュレーションのためのCVとして採用する。
論文 参考訳(メタデータ) (2024-02-06T06:42:51Z) - Data Augmentation Scheme for Raman Spectra with Highly Correlated
Annotations [0.23090185577016453]
統計的に独立なラベルを持つデータセットから追加のデータポイントを生成するために、スペクトルの付加的な性質を利用する。
これらのデータポイント上でCNNをトレーニングすることで、アノテーションがモデルトレーニングに使用されたデータセットと同じ相関関係を持たないデータセットのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-02-01T18:46:28Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Transfer learning for atomistic simulations using GNNs and kernel mean
embeddings [24.560340485988128]
本稿では, グラフニューラルネットワーク(GNN)を用いて, カーネル平均埋め込みとともに, 化学環境を表現するトランスファー学習アルゴリズムを提案する。
我々は,複雑性を増大させる一連の現実的なデータセットに対して,我々のアプローチを検証し,優れた一般化と伝達可能性性能を示す。
論文 参考訳(メタデータ) (2023-06-02T14:58:16Z) - Neural FIM for learning Fisher Information Metrics from point cloud data [71.07939200676199]
我々は、ポイントクラウドデータからフィッシャー情報量(FIM)を計算するためのニューラルFIMを提案する。
本稿では,PHATE可視化手法のパラメータの選択と,IPSCリプログラミングとPBMC(免疫細胞)の2つの単一セルデータセットと,おもちゃデータセットの分岐点とクラスタセンターの埋め込みに関する情報を得る能力について述べる。
論文 参考訳(メタデータ) (2023-06-01T17:36:13Z) - Transfer learning for chemically accurate interatomic neural network
potentials [0.0]
密度汎関数計算から得られたデータに基づいてネットワークパラメータを事前学習することにより、より正確なab-initioデータに基づいてトレーニングされたモデルのサンプル効率が向上することを示す。
ANI-1x および ANI-1ccx データセット上で事前訓練および微調整されたGM-NN電位を提供する。
論文 参考訳(メタデータ) (2022-12-07T19:21:01Z) - Extreme Acceleration of Graph Neural Network-based Prediction Models for
Quantum Chemistry [7.592530794455257]
本稿では,分子特性予測のためのグラフニューラルネットワークのトレーニングをスケールアップするための,ハードウェアとソフトウェアの共同設計手法を提案する。
本稿では,分子グラフのバッチを固定サイズパックに結合して冗長計算やメモリを不要にするアルゴリズムを提案する。
このような共同設計手法により、分子特性予測モデルのトレーニング時間を数日から2時間未満に短縮できることを示す。
論文 参考訳(メタデータ) (2022-11-25T01:30:18Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。