論文の概要: Self-Consistency Training for Hamiltonian Prediction
- arxiv url: http://arxiv.org/abs/2403.09560v1
- Date: Thu, 14 Mar 2024 16:52:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 19:38:09.175391
- Title: Self-Consistency Training for Hamiltonian Prediction
- Title(参考訳): ハミルトン予測のための自己整合性トレーニング
- Authors: He Zhang, Chang Liu, Zun Wang, Xinran Wei, Siyuan Liu, Nanning Zheng, Bin Shao, Tie-Yan Liu,
- Abstract要約: ハミルトン予測は自己整合性原理を持ち,ラベル付きデータを必要としない正確なトレーニング手法を提案する。
データスカースとアウト・オブ・ディストリビューションのシナリオにおけるより良い一般化と、アモート化によるより良い効率を実証的に実証する。
- 参考スコア(独自算出の注目度): 74.84850523400873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hamiltonian prediction is a versatile formulation to leverage machine learning for solving molecular science problems. Yet, its applicability is limited by insufficient labeled data for training. In this work, we highlight that Hamiltonian prediction possesses a self-consistency principle, based on which we propose an exact training method that does not require labeled data. This merit addresses the data scarcity difficulty, and distinguishes the task from other property prediction formulations with unique benefits: (1) self-consistency training enables the model to be trained on a large amount of unlabeled data, hence substantially enhances generalization; (2) self-consistency training is more efficient than labeling data with DFT for supervised training, since it is an amortization of DFT calculation over a set of molecular structures. We empirically demonstrate the better generalization in data-scarce and out-of-distribution scenarios, and the better efficiency from the amortization. These benefits push forward the applicability of Hamiltonian prediction to an ever larger scale.
- Abstract(参考訳): ハミルトン予測は、機械学習を利用して分子科学の問題を解決する汎用的な定式化である。
しかし、その適用性はトレーニングに十分なラベル付きデータによって制限されている。
本研究では,ラベル付きデータを必要としない厳密なトレーニング手法を提案する。
このメリットはデータ不足の難しさに対処し,(1) 自己整合性トレーニングにより,大量の未ラベルデータに基づいてモデルをトレーニングすることが可能になり,その結果,一般化が著しく向上する,(2) 自己整合性トレーニングは,分子構造の集合に対するDFT計算の復号化であるため,DFTでデータをラベル付けするよりも効率的である,というユニークな利点によって,タスクを他の特性予測式と区別する。
データスカースとアウト・オブ・ディストリビューションのシナリオにおけるより良い一般化と、アモート化によるより良い効率を実証的に実証する。
これらの利点はハミルトン予想の適用性をさらに大きな規模に推し進める。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Towards a Theoretical Understanding of Memorization in Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(GenAI)の主流モデルとして採用されている。
モデル収束を前提とした条件付きおよび非条件付きDPMにおける記憶の理論的理解を提供する。
本研究では、生成されたデータに基づいて訓練された時間依存型分類器を代理条件として利用し、無条件DPMからトレーニングデータを抽出する、textbfSurrogate condItional Data extract (SIDE) という新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T13:17:06Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach [8.875278412741695]
機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。
我々は,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Deep Active Learning for Biased Datasets via Fisher Kernel
Self-Supervision [5.352699766206807]
アクティブラーニング(AL)は、データ要求型ディープニューラルネットワーク(DNN)のラベル付け作業を最小化する
自己教師型フィッシャーカーネル(FK)を用いた特徴密度マッチングのための低複雑さ手法を提案する。
本手法は,MNIST,SVHN,ImageNetの分類において,処理の1/10しか必要とせず,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-01T03:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。