論文の概要: Surprisingly High Redundancy in Electronic Structure Data
- arxiv url: http://arxiv.org/abs/2507.09001v1
- Date: Fri, 11 Jul 2025 20:08:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.069395
- Title: Surprisingly High Redundancy in Electronic Structure Data
- Title(参考訳): 電子構造データにおける驚くほど高い冗長性
- Authors: Sazzad Hossain, Ponkrshnan Thiagarajan, Shashank Pathrudkar, Stephanie Taylor, Abhijeet S. Gangan, Amartya S. Banerjee, Susanta Ghosh,
- Abstract要約: 本研究は, 様々な物質系にまたがるデータセットにおいて, 驚くほど高い冗長性を示す。
ランダムプルーニングであっても,予測精度の低下を最小限に抑えて,データセットサイズを大幅に削減できることを示す。
電子構造データにおける従来未発見の高度な冗長性は、各材料クラスの最小限かつ必須のデータセットを識別する可能性を秘めている。
- 参考スコア(独自算出の注目度): 1.6752458252726457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning (ML) models for electronic structure rely on large datasets generated through expensive Kohn-Sham Density Functional Theory simulations. This study reveals a surprisingly high level of redundancy in such datasets across various material systems, including molecules, simple metals, and complex alloys. Our findings challenge the prevailing assumption that large, exhaustive datasets are necessary for accurate ML predictions of electronic structure. We demonstrate that even random pruning can substantially reduce dataset size with minimal loss in predictive accuracy, while a state-of-the-art coverage-based pruning strategy retains chemical accuracy and model generalizability using up to 100-fold less data and reducing training time by threefold or more. By contrast, widely used importance-based pruning methods, which eliminate seemingly redundant data, can catastrophically fail at higher pruning factors, possibly due to the significant reduction in data coverage. This heretofore unexplored high degree of redundancy in electronic structure data holds the potential to identify a minimal, essential dataset representative of each material class.
- Abstract(参考訳): 電子構造のための機械学習(ML)モデルは、高価なコーン・シャム密度汎関数理論シミュレーションによって生成される大きなデータセットに依存している。
この研究は、分子、単純な金属、複雑な合金を含む様々な物質系にまたがるデータセットにおいて、驚くほど高い冗長性を示す。
電子構造の正確なML予測には,大規模で網羅的なデータセットが必要であるという仮定が有力である。
予測精度の低下を最小限に抑えることなく、ランダムプルーニングでもデータセットサイズを大幅に削減できることを示す一方、最先端のカバレッジベースプルーニング戦略は、100倍以下のデータを用いて、化学精度とモデル一般化性を保ち、トレーニング時間を3倍以上削減する。
対照的に、一見冗長なデータを排除した重要度に基づくプルーニング手法は、おそらくデータカバレッジの大幅な削減のために、より高いプルーニング要因で破滅的に失敗する可能性がある。
電子構造データにおける従来未発見の高度な冗長性は、各材料クラスの最小限かつ必須のデータセットを識別する可能性を秘めている。
関連論文リスト
- Robust Molecular Property Prediction via Densifying Scarce Labeled Data [51.55434084913129]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では,未ラベルデータを利用したメタラーニングに基づく新しい手法を提案する。
実世界のデータセットに挑戦する上で、大きなパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Towards Data-Efficient Pretraining for Atomic Property Prediction [51.660835328611626]
タスク関連データセットでの事前トレーニングは、大規模な事前トレーニングと一致するか、あるいは超える可能性があることを示す。
本稿では,コンピュータビジョンのFr'echet Inception Distanceにインスパイアされた,化学類似度指数(CSI)を紹介する。
論文 参考訳(メタデータ) (2025-02-16T11:46:23Z) - Data-Efficient Machine Learning Potentials via Difference Vectors Based on Local Atomic Environments [13.307935336307475]
局所原子環境(DV-LAE)に基づく新しい差分ベクトルを提案する。
DV-LAEは、ヒストグラムベースの記述子を用いて構造的差異を符号化し、t-S次元減少による視覚解析を可能にする。
DV-LAEは, 各種材料システムにおけるデータセットサイズとトレーニング時間を著しく短縮することを示した。
論文 参考訳(メタデータ) (2025-01-27T04:08:37Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [76.95536611263356]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - Going Beyond Feature Similarity: Effective Dataset Distillation based on Class-Aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。
合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文 参考訳(メタデータ) (2024-12-13T08:10:47Z) - Transfer Learning for Deep Learning-based Prediction of Lattice Thermal Conductivity [0.0]
深層学習モデル(ParAIsite)の精度と一般化性に及ぼす伝達学習の影響について検討する。
格子熱伝導率(LTC)の低品質近似の大規模なデータセット上で、初めて微調整を行うと、さらに改善が得られた。
有望な結果は、低熱伝導率材料を探索する大きなデータベースを探索する能力を高めるための道を開く。
論文 参考訳(メタデータ) (2024-11-27T11:57:58Z) - Electronic Structure Prediction of Multi-million Atom Systems Through Uncertainty Quantification Enabled Transfer Learning [5.4875371069660925]
基底状態電子密度 -- コーン・シャム密度汎関数理論(KS-DFT)シミュレーションで得られる -- は、豊富な物質情報を含んでいる。
しかし、KS-DFTの計算コストは、トレーニングデータ生成を妨害する傾向にあるシステムサイズと3倍にスケールする。
ここでは,この基本的課題に,移動学習を用いて学習データのマルチスケールな性質を活用する。
論文 参考訳(メタデータ) (2023-08-24T21:41:29Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure
reconstruction from extremely small data sets [110.60233593474796]
DA-VEGANは2つの中心的なイノベーションを持つモデルである。
$beta$-variational autoencoderはハイブリッドGANアーキテクチャに組み込まれている。
このアーキテクチャに特化して、独自の差別化可能なデータ拡張スキームが開発されている。
論文 参考訳(メタデータ) (2023-02-17T08:49:09Z) - A Deep-Learning Intelligent System Incorporating Data Augmentation for
Short-Term Voltage Stability Assessment of Power Systems [9.299576471941753]
本稿では,電力系統のSTVSAにデータ拡張を取り入れた新しいディープラーニング知能システムを提案する。
半教師付きクラスタ学習を利用して、ラベル付きサンプルを元の小さなデータセットで取得する。
条件付き最小二乗生成逆数ネットワーク(LSGAN)ベースのデータ拡張を導入し、元のデータセットを拡張する。
論文 参考訳(メタデータ) (2021-12-05T11:40:54Z) - A Survey on Impact of Transient Faults on BNN Inference Accelerators [0.9667631210393929]
ビッグデータブームにより、非常に大きなデータセットへのアクセスと分析が容易になります。
ディープラーニングモデルは、計算能力と極めて高いメモリアクセスを必要とする。
本研究では,ソフトエラーが独自の深層学習アルゴリズムに与える影響が画像の劇的な誤分類を引き起こす可能性を実証した。
論文 参考訳(メタデータ) (2020-04-10T16:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。