論文の概要: Unsupervised Atomic Data Mining via Multi-Kernel Graph Autoencoders for Machine Learning Force Fields
- arxiv url: http://arxiv.org/abs/2509.12358v1
- Date: Mon, 15 Sep 2025 18:41:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.72053
- Title: Unsupervised Atomic Data Mining via Multi-Kernel Graph Autoencoders for Machine Learning Force Fields
- Title(参考訳): 機械学習力場のためのマルチカーネルグラフオートエンコーダによる教師なし原子データマイニング
- Authors: Hong Sun, Joshua A. Vita, Amit Samanta, Vincenzo Lordi,
- Abstract要約: 計算化学や材料科学において、多くの一般的なデータセット生成技術はポテンシャルエネルギー表面の領域をオーバーサンプリングする傾向がある。
本稿では,Multi- Kernel Edge Attention-based Graph Autoencoder (MEAGraph)モデルを紹介する。
- 参考スコア(独自算出の注目度): 5.060979249413893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing a chemically diverse dataset while avoiding sampling bias is critical to training efficient and generalizable force fields. However, in computational chemistry and materials science, many common dataset generation techniques are prone to oversampling regions of the potential energy surface. Furthermore, these regions can be difficult to identify and isolate from each other or may not align well with human intuition, making it challenging to systematically remove bias in the dataset. While traditional clustering and pruning (down-sampling) approaches can be useful for this, they can often lead to information loss or a failure to properly identify distinct regions of the potential energy surface due to difficulties associated with the high dimensionality of atomic descriptors. In this work, we introduce the Multi-kernel Edge Attention-based Graph Autoencoder (MEAGraph) model, an unsupervised approach for analyzing atomic datasets. MEAGraph combines multiple linear kernel transformations with attention-based message passing to capture geometric sensitivity and enable effective dataset pruning without relying on labels or extensive training. Demonstrated applications on niobium, tantalum, and iron datasets show that MEAGraph efficiently groups similar atomic environments, allowing for the use of basic pruning techniques for removing sampling bias. This approach provides an effective method for representation learning and clustering that can be used for data analysis, outlier detection, and dataset optimization.
- Abstract(参考訳): サンプリングバイアスを避けながら化学的に多様なデータセットを構築することは、効率的で一般化可能な力場を訓練するために重要である。
しかし、計算化学や材料科学において、多くの一般的なデータセット生成技術はポテンシャルエネルギー表面の領域をオーバーサンプリングする傾向がある。
さらに、これらの領域は互いに識別し分離することは困難であり、人間の直感とうまく一致しない可能性があるため、データセットのバイアスを体系的に除去することは困難である。
従来のクラスタリングとプルーニング(ダウンサンプリング)アプローチはこれに有用であるが、原子ディスクリプタの高次元性に関連する困難のため、情報損失や潜在的なエネルギー表面の異なる領域を適切に識別できないことがしばしばある。
本研究では,マルチカーネルエッジアテンションに基づくグラフオートエンコーダ(MEAGraph)モデルを提案する。
MEAGraphは、複数の線形カーネル変換とアテンションベースのメッセージパッシングを組み合わせることで、幾何学的感度をキャプチャし、ラベルや広範なトレーニングに頼ることなく、効果的なデータセットのプルーニングを可能にする。
ニオブ、タンタル、鉄のデータセットに対する実証的な応用は、MEAGraphが類似した原子環境を効率的にグループ化し、サンプリングバイアスを取り除くための基本的な刈り取り技術を利用することができることを示している。
このアプローチは、データ分析、アウトレイラ検出、データセット最適化に使用できる、表現学習とクラスタリングの効果的な方法を提供する。
関連論文リスト
- Enhancing High-Energy Particle Physics Collision Analysis through Graph Data Attribution Techniques [0.0]
本稿では、シミュレーション粒子衝突データセットを用いて、グラフ分類パイプライン内の影響分析を統合する。
グラフニューラルネットワークを初等訓練に用いることにより,学習サンプルの同定に勾配に基づくデータ影響法を適用した。
破棄された要素を分析することで、イベント分類タスクに関するさらなる洞察を得ることができる。
論文 参考訳(メタデータ) (2024-07-20T12:40:03Z) - GeoMix: Towards Geometry-Aware Data Augmentation [76.09914619612812]
Mixupは画像分類におけるラベル付き限られたデータによる課題の緩和にかなりの成功を収めている。
In-place graph editing を利用した簡易かつ解釈可能な混合手法 Geometric Mixup (GeoMix) を提案する。
論文 参考訳(メタデータ) (2024-07-15T12:58:04Z) - Physics-informed and Unsupervised Riemannian Domain Adaptation for Machine Learning on Heterogeneous EEG Datasets [53.367212596352324]
脳波信号物理を利用した教師なし手法を提案する。
脳波チャンネルをフィールド、ソースフリーなドメイン適応を用いて固定位置にマッピングする。
提案手法は脳-コンピュータインタフェース(BCI)タスクおよび潜在的なバイオマーカー応用におけるロバストな性能を示す。
論文 参考訳(メタデータ) (2024-03-07T16:17:33Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Unsupervised Anomaly Detection via Nonlinear Manifold Learning [0.0]
異常は、残りのデータから著しく逸脱するサンプルであり、その検出は機械学習モデルを構築する上で大きな役割を果たす。
非線形多様体学習に基づく頑健で効率的かつ解釈可能な手法を導入し,教師なし設定における異常を検出する。
論文 参考訳(メタデータ) (2023-06-15T18:48:10Z) - On the Interplay of Subset Selection and Informed Graph Neural Networks [3.091456764812509]
この研究は、QM9データセットにおける分子の原子化エネルギーの予測に焦点を当てている。
トレーニングセット選択過程における分子多様性の最大化は,線形回帰法および非線形回帰法のロバスト性を高めることを示す。
また、モデルに依存しない説明器を用いて、グラフニューラルネットワークによる予測の信頼性を確認する。
論文 参考訳(メタデータ) (2023-06-15T09:09:27Z) - Integrating Transformer and Autoencoder Techniques with Spectral Graph
Algorithms for the Prediction of Scarcely Labeled Molecular Data [2.8360662552057323]
この課題に対処するために、Merriman-Bence-Osher(MBO)テクニックを取り入れたグラフベースの3つのモデルを導入する。
具体的には、MBO方式のグラフベースの修正は、自家製のトランスフォーマーやオートエンコーダなどの最先端技術と統合されている。
提案したモデルは,5つのベンチマークデータセットを用いて検証する。
論文 参考訳(メタデータ) (2022-11-12T22:45:32Z) - From Unsupervised to Few-shot Graph Anomaly Detection: A Multi-scale Contrastive Learning Approach [26.973056364587766]
グラフデータからの異常検出は、ソーシャルネットワーク、金融、eコマースなど、多くのアプリケーションにおいて重要なデータマイニングタスクである。
マルチスケールcONtrastive lEarning(略してANEMONE)を用いた新しいフレームワーク, graph Anomaly dEtection フレームワークを提案する。
グラフニューラルネットワークをバックボーンとして、複数のグラフスケール(ビュー)から情報をエンコードすることで、グラフ内のノードのより良い表現を学習する。
論文 参考訳(メタデータ) (2022-02-11T09:45:11Z) - Generative and Contrastive Self-Supervised Learning for Graph Anomaly
Detection [14.631674952942207]
グラフ異常検出のための自己教師付き学習法(SL-GAD)を提案する。
提案手法では,対象ノードに基づいて異なるコンテキストサブグラフを構築し,生成属性回帰とマルチビューコントラスト学習という2つのモジュールを用いて異常検出を行う。
提案手法は,6つのベンチマークデータセットに対して広範な実験を行い,提案手法が最先端の手法よりも大きなマージンで優れていることを示した。
論文 参考訳(メタデータ) (2021-08-23T02:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。