論文の概要: Self-Consistency Training for Density-Functional-Theory Hamiltonian Prediction
- arxiv url: http://arxiv.org/abs/2403.09560v2
- Date: Wed, 5 Jun 2024 07:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:40:47.891819
- Title: Self-Consistency Training for Density-Functional-Theory Hamiltonian Prediction
- Title(参考訳): 密度関数理論ハミルトニアン予測のための自己整合性トレーニング
- Authors: He Zhang, Chang Liu, Zun Wang, Xinran Wei, Siyuan Liu, Nanning Zheng, Bin Shao, Tie-Yan Liu,
- Abstract要約: ハミルトン予測は自己整合性理論を持ち,自己整合性トレーニングを提案する。
これにより、大量のラベルのないデータでモデルをトレーニングできるため、データの不足に対処できる。
一連のクエリに対してDFT計算を補正するため、教師付きトレーニングのためのラベルを生成するのにDFTを実行するより効率的である。
- 参考スコア(独自算出の注目度): 74.84850523400873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting the mean-field Hamiltonian matrix in density functional theory is a fundamental formulation to leverage machine learning for solving molecular science problems. Yet, its applicability is limited by insufficient labeled data for training. In this work, we highlight that Hamiltonian prediction possesses a self-consistency principle, based on which we propose self-consistency training, an exact training method that does not require labeled data. It distinguishes the task from predicting other molecular properties by the following benefits: (1) it enables the model to be trained on a large amount of unlabeled data, hence addresses the data scarcity challenge and enhances generalization; (2) it is more efficient than running DFT to generate labels for supervised training, since it amortizes DFT calculation over a set of queries. We empirically demonstrate the better generalization in data-scarce and out-of-distribution scenarios, and the better efficiency over DFT labeling. These benefits push forward the applicability of Hamiltonian prediction to an ever-larger scale.
- Abstract(参考訳): 密度汎関数理論における平均場ハミルトン行列の予測は、分子科学の問題を解決するために機械学習を利用するための基本的な定式化である。
しかし、その適用性はトレーニングに十分なラベル付きデータによって制限されている。
本研究では,ラベル付きデータを必要としない厳密なトレーニング手法である自己整合性トレーニングを提案する。
1) ラベルのない大量のデータに基づいてモデルをトレーニングし、データ不足の問題に対処し、一般化を促進すること、(2) 教師付きトレーニングのためのラベルを生成するためにDFTを実行するよりも効率的である。
データスカースとアウト・オブ・ディストリビューションのシナリオにおけるより優れた一般化と、DFTラベリングよりも優れた効率を実証的に示す。
これらの利点はハミルトン予想の適用性を常に大きなスケールに推し進める。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach [8.875278412741695]
機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。
我々は,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。