論文の概要: Active Learning Strategies for Efficient Machine-Learned Interatomic Potentials Across Diverse Material Systems
- arxiv url: http://arxiv.org/abs/2601.06916v1
- Date: Sun, 11 Jan 2026 13:52:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.065373
- Title: Active Learning Strategies for Efficient Machine-Learned Interatomic Potentials Across Diverse Material Systems
- Title(参考訳): 各種材料システムにおける効率的な機械学習型原子間ポテンシャルのアクティブラーニング戦略
- Authors: Mohammed Azeez Khan, Aaron D'Souza, Vijay Choyal,
- Abstract要約: 我々は、機械学習による原子間ポテンシャルに対する情報的学習構造を反復的に選択する能動的学習フレームワークを開発する。
知的データ選択戦略は、ランダムなベースラインに比べてラベル付きサンプルを5-13%減らして目標精度を達成できることを示す。
パイプライン全体は、Google Colab上で8GB以下のRAMを使用して、システム毎に4時間以内で実行される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient discovery of new materials demands strategies to reduce the number of costly first-principles calculations required to train predictive machine learning models. We develop and validate an active learning framework that iteratively selects informative training structures for machine-learned interatomic potentials (MLIPs) from large, heterogeneous materials databases, specifically the Materials Project and OQMD. Our framework integrates compositional and property-based descriptors with a neural network ensemble model, enabling real-time uncertainty quantification via Query-by-Committee. We systematically compare four selection strategies: random sampling (baseline), uncertainty-based sampling, diversity-based sampling (k-means clustering with farthest-point refinement), and a hybrid approach balancing both objectives. Experiments across four representative material systems (elemental carbon, silicon, iron, and a titanium-oxide compound) with 5 random seeds per configuration demonstrate that diversity sampling consistently achieves competitive or superior performance, with particularly strong advantages on complex systems like titanium-oxide (10.9% improvement, p=0.008). Our results show that intelligent data selection strategies can achieve target accuracy with 5-13% fewer labeled samples compared to random baselines. The entire pipeline executes on Google Colab in under 4 hours per system using less than 8 GB of RAM, thereby democratizing MLIP development for researchers globally with limited computational resources. Our open-source code and detailed experimental configurations are available on GitHub. This multi-system evaluation establishes practical guidelines for data-efficient MLIP training and highlights promising future directions including integration with symmetry-aware neural network architectures.
- Abstract(参考訳): 新しい素材の効率的な発見は、予測機械学習モデルを訓練するのに必要なコストのかかる第一原理計算の数を減らすための戦略を要求する。
我々は,大規模な異種材料データベース,特にマテリアルプロジェクトとOQMDから,機械学習型原子間ポテンシャル(MLIP)の情報的学習構造を反復的に選択する能動的学習フレームワークを開発し,検証する。
本フレームワークは,コンポジションおよびプロパティベースの記述子をニューラルネットワークアンサンブルモデルに統合し,クエリ・バイ・コミットによるリアルタイム不確実性定量化を実現する。
提案手法は,ランダムサンプリング(ベースライン),不確実性に基づくサンプリング,多様性に基づくサンプリング(K平均クラスタリングと最遠点リファインメント),両目的のバランスをとるハイブリッドアプローチの4つの選択戦略を体系的に比較する。
4つの代表物質系(元素炭素、シリコン、鉄、酸化チタン化合物)に5つのランダムな種を配置して実験したところ、多様性のサンプリングは競争力や優れた性能を一貫して達成し、特に酸化チタンのような複雑な系(p=0.008)に強い優位性を持つことが示された。
その結果,知的データ選択戦略は,ランダムなベースラインに比べてラベル付きサンプルを5-13%減らして目標精度を達成できることが示唆された。
パイプライン全体は8GB未満のRAMを使用して1システムあたり4時間以内でGoogle Colab上で実行される。
当社のオープンソースコードと詳細な実験構成はGitHubで公開しています。
このマルチシステム評価は、データ効率のMLIPトレーニングの実践的ガイドラインを確立し、対称性を意識したニューラルネットワークアーキテクチャとの統合を含む将来的な方向性を強調する。
関連論文リスト
- Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - MiniCPM4: Ultra-Efficient LLMs on End Devices [126.22958722174583]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - Stochastic Configuration Machines for Industrial Artificial Intelligence [4.57421617811378]
産業人工知能(IAI)におけるコンフィグレーションネットワーク(SCN)の役割
本稿では、効率的なモデリングとデータサイズ削減を強調するために、SCMと呼ばれる新しいランダム化学習モデルを提案する。
いくつかのベンチマークデータセットと3つの産業応用に関する実験的研究が行われている。
論文 参考訳(メタデータ) (2023-08-25T05:52:41Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Batch-Ensemble Stochastic Neural Networks for Out-of-Distribution
Detection [55.028065567756066]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイすることの重要性から、マシンラーニングコミュニティから注目を集めている。
本稿では,特徴量の分布をモデル化した不確実な定量化手法を提案する。
バッチアンサンブルニューラルネットワーク(BE-SNN)の構築と機能崩壊問題の克服を目的として,効率的なアンサンブル機構,すなわちバッチアンサンブルを組み込んだ。
We show that BE-SNNs yield superior performance on the Two-Moons dataset, the FashionMNIST vs MNIST dataset, FashionM。
論文 参考訳(メタデータ) (2022-06-26T16:00:22Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Towards an Automatic Analysis of CHO-K1 Suspension Growth in
Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。
具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文 参考訳(メタデータ) (2020-10-20T08:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。