論文の概要: On the Interplay of Subset Selection and Informed Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2306.10066v1
- Date: Thu, 15 Jun 2023 09:09:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:30:30.722647
- Title: On the Interplay of Subset Selection and Informed Graph Neural Networks
- Title(参考訳): サブセット選択とインフォームドグラフニューラルネットワークの相互作用について
- Authors: Niklas Breustedt, Paolo Climaco, Jochen Garcke, Jan Hamaekers, Gitta
Kutyniok, Dirk A. Lorenz, Rick Oerder, Chirag Varun Shukla
- Abstract要約: この研究は、QM9データセットにおける分子の原子化エネルギーの予測に焦点を当てている。
トレーニングセット選択過程における分子多様性の最大化は,線形回帰法および非線形回帰法のロバスト性を高めることを示す。
また、モデルに依存しない説明器を用いて、グラフニューラルネットワークによる予測の信頼性を確認する。
- 参考スコア(独自算出の注目度): 3.091456764812509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning techniques paired with the availability of massive datasets
dramatically enhance our ability to explore the chemical compound space by
providing fast and accurate predictions of molecular properties. However,
learning on large datasets is strongly limited by the availability of
computational resources and can be infeasible in some scenarios. Moreover, the
instances in the datasets may not yet be labelled and generating the labels can
be costly, as in the case of quantum chemistry computations. Thus, there is a
need to select small training subsets from large pools of unlabelled data
points and to develop reliable ML methods that can effectively learn from small
training sets. This work focuses on predicting the molecules atomization energy
in the QM9 dataset. We investigate the advantages of employing domain
knowledge-based data sampling methods for an efficient training set selection
combined with informed ML techniques. In particular, we show how maximizing
molecular diversity in the training set selection process increases the
robustness of linear and nonlinear regression techniques such as kernel methods
and graph neural networks. We also check the reliability of the predictions
made by the graph neural network with a model-agnostic explainer based on the
rate distortion explanation framework.
- Abstract(参考訳): 大規模なデータセットの可用性と組み合わせた機械学習技術は、分子特性の高速かつ正確な予測を提供することで、化学化合物空間を探索する能力を大幅に向上します。
しかし、大規模なデータセットでの学習は計算資源の可用性によって強く制限され、いくつかのシナリオでは実現不可能である。
さらに、データセットのインスタンスはまだラベル付けされておらず、量子化学計算のようにラベルを生成するのにコストがかかる。
したがって、ラベルのない大量のデータポイントから小さなトレーニングサブセットを選択し、小さなトレーニングセットから効果的に学習できる信頼性の高いMLメソッドを開発する必要がある。
この研究は、QM9データセットにおける分子の原子化エネルギーの予測に焦点を当てている。
情報ML手法と組み合わせた効率的なトレーニングセット選択のためのドメイン知識に基づくデータサンプリング手法の利点を検討する。
特に,訓練集合選択過程における分子多様性を最大化することで,カーネル法やグラフニューラルネットワークといった線形および非線形回帰手法の頑健性が向上することを示す。
また,モデルに依存しない説明手法を用いて,グラフニューラルネットワークによる予測の信頼性を確認する。
関連論文リスト
- Physical Consistency Bridges Heterogeneous Data in Molecular Multi-Task Learning [79.75718786477638]
我々は、それらを接続する物理法則が存在する分子的タスクの専門性を生かし、整合性トレーニングアプローチを設計する。
より正確なエネルギーデータにより、構造予測の精度が向上することを示した。
また、整合性トレーニングは、構造予測を改善するために、力と非平衡構造データを直接活用できることがわかった。
論文 参考訳(メタデータ) (2024-10-14T03:11:33Z) - chemtrain: Learning Deep Potential Models via Automatic Differentiation and Statistical Physics [0.0]
ニューラルネットワーク(NN)は分子動力学の精度を改善するための有望なモデルである。
Chemtrainは、カスタマイズ可能なトレーニングルーチンと高度なトレーニングアルゴリズムを通じて、洗練されたNNポテンシャルモデルを学ぶためのフレームワークである。
論文 参考訳(メタデータ) (2024-08-28T15:14:58Z) - Hybrid Quantum Graph Neural Network for Molecular Property Prediction [0.17747993681679466]
我々は,ペロブスカイト材料の形成エネルギーを予測するために,自由ハイブリッド量子勾配古典畳み込みグラフニューラルネットワークを開発した。
我々の研究は、量子特徴符号化とパラメトリック量子回路が複雑な機械学習アルゴリズムを劇的に改善する方法を探求する新たな道筋を示唆している。
論文 参考訳(メタデータ) (2024-05-08T16:43:25Z) - Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0]
2つの小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。
本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-20T14:25:34Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Transfer learning for atomistic simulations using GNNs and kernel mean
embeddings [24.560340485988128]
本稿では, グラフニューラルネットワーク(GNN)を用いて, カーネル平均埋め込みとともに, 化学環境を表現するトランスファー学習アルゴリズムを提案する。
我々は,複雑性を増大させる一連の現実的なデータセットに対して,我々のアプローチを検証し,優れた一般化と伝達可能性性能を示す。
論文 参考訳(メタデータ) (2023-06-02T14:58:16Z) - Neural FIM for learning Fisher Information Metrics from point cloud data [71.07939200676199]
我々は、ポイントクラウドデータからフィッシャー情報量(FIM)を計算するためのニューラルFIMを提案する。
本稿では,PHATE可視化手法のパラメータの選択と,IPSCリプログラミングとPBMC(免疫細胞)の2つの単一セルデータセットと,おもちゃデータセットの分岐点とクラスタセンターの埋め込みに関する情報を得る能力について述べる。
論文 参考訳(メタデータ) (2023-06-01T17:36:13Z) - Transfer learning for chemically accurate interatomic neural network
potentials [0.0]
密度汎関数計算から得られたデータに基づいてネットワークパラメータを事前学習することにより、より正確なab-initioデータに基づいてトレーニングされたモデルのサンプル効率が向上することを示す。
ANI-1x および ANI-1ccx データセット上で事前訓練および微調整されたGM-NN電位を提供する。
論文 参考訳(メタデータ) (2022-12-07T19:21:01Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。