論文の概要: Maximizing Efficiency of Dataset Compression for Machine Learning Potentials With Information Theory
- arxiv url: http://arxiv.org/abs/2511.10561v1
- Date: Fri, 14 Nov 2025 01:57:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.930073
- Title: Maximizing Efficiency of Dataset Compression for Machine Learning Potentials With Information Theory
- Title(参考訳): 情報理論を用いた機械学習ポテンシャルに対するデータセット圧縮の最大化
- Authors: Benjamin Yu, Vincenzo Lordi, Daniel Schwalbe-Koda,
- Abstract要約: 機械学習原子間ポテンシャル(MLIP)は密度汎関数理論計算と比較して高い精度と低コストのバランスをとる。
大規模なデータセットはモデルの精度と一般化を改善するが、生産と訓練には計算コストがかかる。
我々は,データセット圧縮手法の効率を定量化する情報理論フレームワークを開発した。
- 参考スコア(独自算出の注目度): 0.45880283710344066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning interatomic potentials (MLIPs) balance high accuracy and lower costs compared to density functional theory calculations, but their performance often depends on the size and diversity of training datasets. Large datasets improve model accuracy and generalization but are computationally expensive to produce and train on, while smaller datasets risk discarding rare but important atomic environments and compromising MLIP accuracy/reliability. Here, we develop an information-theoretical framework to quantify the efficiency of dataset compression methods and propose an algorithm that maximizes this efficiency. By framing atomistic dataset compression as an instance of the minimum set cover (MSC) problem over atom-centered environments, our method identifies the smallest subset of structures that contains as much information as possible from the original dataset while pruning redundant information. The approach is extensively demonstrated on the GAP-20 and TM23 datasets, and validated on 64 varied datasets from the ColabFit repository. Across all cases, MSC consistently retains outliers, preserves dataset diversity, and reproduces the long-tail distributions of forces even at high compression rates, outperforming other subsampling methods. Furthermore, MLIPs trained on MSC-compressed datasets exhibit reduced error for out-of-distribution data even in low-data regimes. We explain these results using an outlier analysis and show that such quantitative conclusions could not be achieved with conventional dimensionality reduction methods. The algorithm is implemented in the open-source QUESTS package and can be used for several tasks in atomistic modeling, from data subsampling, outlier detection, and training improved MLIPs at a lower cost.
- Abstract(参考訳): 機械学習の原子間ポテンシャル(MLIP)は密度汎関数理論計算と比較して高い精度と低コストのバランスをとるが、その性能はトレーニングデータセットのサイズと多様性に依存することが多い。
大規模なデータセットはモデルの精度と一般化を改善するが、生成とトレーニングには計算コストがかかる一方で、小さなデータセットは稀だが重要な原子環境を捨て、MLIPの精度/信頼性を損なうリスクがある。
本稿では,データセット圧縮手法の効率を定量化する情報理論フレームワークを開発し,この効率を最大化するアルゴリズムを提案する。
本手法は,原子中心環境上での最小設定被覆(MSC)問題の事例としてアトミックデータセット圧縮をフレーミングすることにより,冗長な情報を抽出しながら,元のデータセットから可能な限り多くの情報を含む最小限の構造のサブセットを同定する。
このアプローチはGAP-20とTM23データセットで広く実証されており、ColabFitリポジトリから64種類のデータセットで検証されている。
あらゆるケースにおいて、MSCはアウトレーヤを一貫して保持し、データセットの多様性を保持し、高い圧縮速度でも力の長期分布を再現し、他のサブサンプリング法よりも優れている。
さらに、MSC圧縮データセットでトレーニングされたMLIPは、低データのレシエーションであっても、配布外データのエラーを低減している。
その結果, 従来の次元削減法では, 定量的な結論が得られないことが示唆された。
このアルゴリズムはオープンソースのQUESTSパッケージで実装されており、データサブサンプリング、アウトレイラ検出、改善されたMLIPを低コストでトレーニングするなど、原子モデルにおけるいくつかのタスクに使用できる。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Data-Efficient Machine Learning Potentials via Difference Vectors Based on Local Atomic Environments [13.307935336307475]
局所原子環境(DV-LAE)に基づく新しい差分ベクトルを提案する。
DV-LAEは、ヒストグラムベースの記述子を用いて構造的差異を符号化し、t-S次元減少による視覚解析を可能にする。
DV-LAEは, 各種材料システムにおけるデータセットサイズとトレーニング時間を著しく短縮することを示した。
論文 参考訳(メタデータ) (2025-01-27T04:08:37Z) - Going Beyond Feature Similarity: Effective Dataset Distillation based on Class-Aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。
合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文 参考訳(メタデータ) (2024-12-13T08:10:47Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。