論文の概要: Data-Efficient Machine Learning Potentials via Difference Vectors Based on Local Atomic Environments
- arxiv url: http://arxiv.org/abs/2501.16398v2
- Date: Sun, 01 Jun 2025 07:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.011684
- Title: Data-Efficient Machine Learning Potentials via Difference Vectors Based on Local Atomic Environments
- Title(参考訳): 局所原子環境に基づく差分ベクトルによるデータ効率の良い機械学習ポテンシャル
- Authors: Xuqiang Shao, Yuqi Zhang, Di Zhang, Zhaoyan Dong, Tianxiang Gao, Mingzhe Li, Xinyuan Liu, Zhiran Gan, Fanshun Meng, Lingcai Kong, Zhengyang Gao, Hao Lic, Weijie Yangd,
- Abstract要約: 局所原子環境(DV-LAE)に基づく新しい差分ベクトルを提案する。
DV-LAEは、ヒストグラムベースの記述子を用いて構造的差異を符号化し、t-S次元減少による視覚解析を可能にする。
DV-LAEは, 各種材料システムにおけるデータセットサイズとトレーニング時間を著しく短縮することを示した。
- 参考スコア(独自算出の注目度): 13.307935336307475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Constructing efficient and diverse datasets is essential for the development of accurate machine learning potentials (MLPs) in atomistic simulations. However, existing approaches often suffer from data redundancy and high computational costs. Herein, we propose a new method--Difference Vectors based on Local Atomic Environments (DV-LAE)--that encodes structural differences via histogram-based descriptors and enables visual analysis through t-SNE dimensionality reduction. This approach facilitates redundancy detection and dataset optimization while preserving structural diversity. We demonstrate that DV-LAE significantly reduces dataset size and training time across various materials systems, including high-pressure hydrogen, iron-hydrogen binaries, magnesium hydrides, and carbon allotropes, with minimal compromise in prediction accuracy. For instance, in the $\alpha$-Fe/H system, maintaining a highly similar MLP accuracy, the dataset size was reduced by 56%, and the training time per iteration dropped by over 50%. Moreover, we show how visualizing the DV-LAE representation aids in identifying out-of-distribution data by examining the spatial distribution of high-error prediction points, providing a robust reliability metric for new structures during simulations. Our results highlight the utility of local environment visualization not only as an interpretability tool but also as a practical means for accelerating MLP development and ensuring data efficiency in large-scale atomistic modeling.
- Abstract(参考訳): 効率的で多様なデータセットを構築することは、原子論シミュレーションにおける正確な機械学習ポテンシャル(MLP)の開発に不可欠である。
しかし、既存のアプローチはデータ冗長性と高い計算コストに悩まされることが多い。
本稿では,局所原子環境(DV-LAE)に基づく新しい手法を提案する。これはヒストグラムベースの記述子を用いて構造的差異を符号化し,t-SNE次元の縮小による視覚的解析を可能にする。
このアプローチは、構造的多様性を維持しながら冗長性の検出とデータセットの最適化を容易にする。
DV-LAEは, 高圧水素, 鉄-水素二元系, 水素化マグネシウム, 炭素同素体など, 様々な材料システムにおいて, データセットサイズとトレーニング時間を著しく短縮し, 予測精度を最小限に抑えることを示した。
例えば$\alpha$-Fe/Hシステムでは、非常によく似たMLP精度を維持し、データセットのサイズを56%削減し、イテレーション毎のトレーニング時間を50%以上削減した。
さらに、DV-LAE表現の可視化は、高誤差予測点の空間分布を調べることによって、分布外データを特定するのにどのように役立つかを示し、シミュレーション中の新しい構造に対する堅牢な信頼性指標を提供する。
本研究は, 局所環境の可視化を解釈可能性ツールとしてだけでなく, MLP開発を加速し, 大規模原子モデルにおけるデータ効率を確保するための実践的手段としても活用するものである。
関連論文リスト
- Topology-aware Reinforcement Feature Space Reconstruction for Graph Data [22.5530178427691]
優れた機能領域の再構築は、データのAI能力の向上、モデルの一般化の改善、下流MLモデルの可用性の向上に不可欠である。
我々は、トポロジ対応強化学習を用いて、グラフデータの特徴空間再構成を自動化し、最適化する。
提案手法では,コア部分グラフ抽出とグラフニューラルネットワーク(GNN)の併用により,トポロジ的特徴を符号化し,計算複雑性を低減する。
論文 参考訳(メタデータ) (2024-11-08T18:01:05Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Transfer learning for atomistic simulations using GNNs and kernel mean
embeddings [24.560340485988128]
本稿では, グラフニューラルネットワーク(GNN)を用いて, カーネル平均埋め込みとともに, 化学環境を表現するトランスファー学習アルゴリズムを提案する。
我々は,複雑性を増大させる一連の現実的なデータセットに対して,我々のアプローチを検証し,優れた一般化と伝達可能性性能を示す。
論文 参考訳(メタデータ) (2023-06-02T14:58:16Z) - Joint Feature and Differentiable $ k $-NN Graph Learning using Dirichlet
Energy [103.74640329539389]
特徴選択と識別可能な$k $-NNグラフ学習を同時に行うディープFS法を提案する。
我々は、ニューラルネットワークで$ k $-NNグラフを学習する際の非微分可能性問題に対処するために、最適輸送理論を用いる。
本モデルの有効性を,合成データセットと実世界のデータセットの両方で広範な実験により検証する。
論文 参考訳(メタデータ) (2023-05-21T08:15:55Z) - Enhancing Performance of Vision Transformers on Small Datasets through
Local Inductive Bias Incorporation [13.056764072568749]
ビジョントランスフォーマー(ViT)は、大規模なデータセットでは顕著なパフォーマンスを達成するが、小さなデータセットでは畳み込みニューラルネットワーク(CNN)よりもパフォーマンスが悪くなる傾向がある。
本稿では、パッチレベルのローカル情報を抽出し、ViTの自己保持ブロックで使用される埋め込みに組み込む、ローカルInFormation Enhancer (LIFE) と呼ばれるモジュールを提案する。
提案するモジュールはメモリと効率が良く, 分類や蒸留トークンなどの補助トークンを処理できるほど柔軟である。
論文 参考訳(メタデータ) (2023-05-15T11:23:18Z) - Distributed Neural Representation for Reactive in situ Visualization [23.80657290203846]
Inlicit Neural representations (INR) は、大規模ボリュームデータを圧縮するための強力なツールとして登場した。
分散ニューラル表現を開発し,それをその場での可視化に最適化する。
我々の技術はプロセス間のデータ交換を排除し、最先端の圧縮速度、品質、比率を達成する。
論文 参考訳(メタデータ) (2023-03-28T03:55:47Z) - Pre-training via Denoising for Molecular Property Prediction [53.409242538744444]
本稿では,3次元分子構造の大規模データセットを平衡に利用した事前学習手法について述べる。
近年のノイズレギュラー化の進展に触発されて, 事前学習の目的は, 雑音の除去に基づくものである。
論文 参考訳(メタデータ) (2022-05-31T22:28:34Z) - Inducing Gaussian Process Networks [80.40892394020797]
本稿では,特徴空間と誘導点を同時に学習するシンプルなフレームワークであるGaussian Process Network (IGN)を提案する。
特に誘導点は特徴空間で直接学習され、複雑な構造化領域のシームレスな表現を可能にする。
実世界のデータセットに対する実験結果から,IGNは最先端の手法よりも大幅に進歩していることを示す。
論文 参考訳(メタデータ) (2022-04-21T05:27:09Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - An Empirical Evaluation of the t-SNE Algorithm for Data Visualization in
Structural Engineering [2.4493299476776773]
t-Distributed Neighbor Embedding (t-SNE)アルゴリズムは、可視化目的で設定された地震関連データセットの寸法を縮小するために用いられる。
SMOTE(Synthetic Minority Oversampling Technique)は、このようなデータセットの不均衡な性質に対処するために用いられる。
トレーニングデータセットにおけるt-SNEとSMOTEを用いて、ニューラルネットワーク分類器は精度を犠牲にすることなく、有望な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-09-18T01:24:39Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。