論文の概要: Self-Consistency Training for Density-Functional-Theory Hamiltonian Prediction
- arxiv url: http://arxiv.org/abs/2403.09560v2
- Date: Wed, 5 Jun 2024 07:46:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 00:40:47.891819
- Title: Self-Consistency Training for Density-Functional-Theory Hamiltonian Prediction
- Title(参考訳): 密度関数理論ハミルトニアン予測のための自己整合性トレーニング
- Authors: He Zhang, Chang Liu, Zun Wang, Xinran Wei, Siyuan Liu, Nanning Zheng, Bin Shao, Tie-Yan Liu,
- Abstract要約: ハミルトン予測は自己整合性理論を持ち,自己整合性トレーニングを提案する。
これにより、大量のラベルのないデータでモデルをトレーニングできるため、データの不足に対処できる。
一連のクエリに対してDFT計算を補正するため、教師付きトレーニングのためのラベルを生成するのにDFTを実行するより効率的である。
- 参考スコア(独自算出の注目度): 74.84850523400873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting the mean-field Hamiltonian matrix in density functional theory is a fundamental formulation to leverage machine learning for solving molecular science problems. Yet, its applicability is limited by insufficient labeled data for training. In this work, we highlight that Hamiltonian prediction possesses a self-consistency principle, based on which we propose self-consistency training, an exact training method that does not require labeled data. It distinguishes the task from predicting other molecular properties by the following benefits: (1) it enables the model to be trained on a large amount of unlabeled data, hence addresses the data scarcity challenge and enhances generalization; (2) it is more efficient than running DFT to generate labels for supervised training, since it amortizes DFT calculation over a set of queries. We empirically demonstrate the better generalization in data-scarce and out-of-distribution scenarios, and the better efficiency over DFT labeling. These benefits push forward the applicability of Hamiltonian prediction to an ever-larger scale.
- Abstract(参考訳): 密度汎関数理論における平均場ハミルトン行列の予測は、分子科学の問題を解決するために機械学習を利用するための基本的な定式化である。
しかし、その適用性はトレーニングに十分なラベル付きデータによって制限されている。
本研究では,ラベル付きデータを必要としない厳密なトレーニング手法である自己整合性トレーニングを提案する。
1) ラベルのない大量のデータに基づいてモデルをトレーニングし、データ不足の問題に対処し、一般化を促進すること、(2) 教師付きトレーニングのためのラベルを生成するためにDFTを実行するよりも効率的である。
データスカースとアウト・オブ・ディストリビューションのシナリオにおけるより優れた一般化と、DFTラベリングよりも優れた効率を実証的に示す。
これらの利点はハミルトン予想の適用性を常に大きなスケールに推し進める。
関連論文リスト
- Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach [8.875278412741695]
機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。
我々は,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Estimating Fr\'echet bounds for validating programmatic weak supervision [50.13475056199486]
我々は、ある変数が連続的に評価される(おそらく高次元の)分布クラス上のFr'echeの境界を推定する手法を開発する。
プログラム弱監督(PWS)を訓練した機械学習(ML)モデルの性能を評価することで,アルゴリズムの有用性を実証する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Accurate machine learning force fields via experimental and simulation
data fusion [0.0]
機械学習(ML)ベースの力場は、量子レベルの精度で古典的原子間ポテンシャルのスケールにまたがる能力のために、ますます関心が高まりつつある。
ここでは、密度汎関数理論(DFT)計算と実験的に測定された力学特性と格子パラメータの両方を活用して、チタンのMLポテンシャルを訓練する。
融合したデータ学習戦略は、全ての対象目標を同時に満たすことができ、結果として、単一のソースデータで訓練されたモデルと比較して高い精度の分子モデルが得られることを実証する。
論文 参考訳(メタデータ) (2023-08-17T18:22:19Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。