論文の概要: Multitask methods for predicting molecular properties from heterogeneous
data
- arxiv url: http://arxiv.org/abs/2401.17898v1
- Date: Wed, 31 Jan 2024 15:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:18:14.908684
- Title: Multitask methods for predicting molecular properties from heterogeneous
data
- Title(参考訳): 不均一データから分子特性を予測するマルチタスク法
- Authors: Katharine Fisher, Michael Herbst, Youssef Marzouk
- Abstract要約: マルチタスクガウス過程の回帰は、高価なデータソースと安価なデータソースの両方を活用することで制限を克服することを示した。
マルチタスクサロゲートは,データ生成コストを1桁以上削減することで,CCレベルの精度で予測可能であることを報告した。
マルチタスクレグレッションは、既存のデータソースを機会的に活用することによって、データ生成コストをさらに削減するためのツールである。
- 参考スコア(独自算出の注目度): 0.3069335774032178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data generation remains a bottleneck in training surrogate models to predict
molecular properties. We demonstrate that multitask Gaussian process regression
overcomes this limitation by leveraging both expensive and cheap data sources.
In particular, we consider training sets constructed from coupled-cluster (CC)
and density function theory (DFT) data. We report that multitask surrogates can
predict at CC level accuracy with a reduction to data generation cost by over
an order of magnitude. Of note, our approach allows the training set to include
DFT data generated by a heterogeneous mix of exchange-correlation functionals
without imposing any artificial hierarchy on functional accuracy. More
generally, the multitask framework can accommodate a wider range of training
set structures -- including full disparity between the different levels of
fidelity -- than existing kernel approaches based on $\Delta$-learning, though
we show that the accuracy of the two approaches can be similar. Consequently,
multitask regression can be a tool for reducing data generation costs even
further by opportunistically exploiting existing data sources.
- Abstract(参考訳): データ生成は、分子特性を予測するために代理モデルを訓練する際のボトルネックである。
マルチタスクガウス過程の回帰は、高価なデータソースと安価なデータソースの両方を活用することで、この制限を克服することを実証する。
特に,結合クラスタ(CC)と密度関数理論(DFT)のデータから構築したトレーニングセットを検討する。
マルチタスクサロゲートは,データ生成コストを1桁以上削減することで,CCレベルの精度で予測可能であることを報告した。
なお,本手法では,関数の精度に人工的な階層を課すことなく,交換相関関数の不均一な混合によって生成されたDFTデータをトレーニングセットに含めることができる。
より一般的には、multitaskフレームワークは、$\Delta$-learningに基づく既存のカーネルアプローチと、異なるレベルの忠実さの完全な相違を含む、幅広いトレーニングセット構造に対応できるが、この2つのアプローチの正確性は似ていることを示している。
したがって、マルチタスク回帰は、既存のデータソースを機会的に活用することで、データ生成コストをさらに削減できるツールである。
関連論文リスト
- Physical Consistency Bridges Heterogeneous Data in Molecular Multi-Task Learning [79.75718786477638]
我々は、それらを接続する物理法則が存在する分子的タスクの専門性を生かし、整合性トレーニングアプローチを設計する。
より正確なエネルギーデータにより、構造予測の精度が向上することを示した。
また、整合性トレーニングは、構造予測を改善するために、力と非平衡構造データを直接活用できることがわかった。
論文 参考訳(メタデータ) (2024-10-14T03:11:33Z) - Scalable Multi-Task Transfer Learning for Molecular Property Prediction [10.512534299496725]
提案手法は, 最適転移率を自動的に取得することにより, 分子特性予測のためのスケーラブルなマルチタスク変換学習を可能にする。
実験により,提案手法は40の分子特性の予測性能を向上し,トレーニング収束を加速した。
論文 参考訳(メタデータ) (2024-10-01T06:28:14Z) - Analysing Multi-Task Regression via Random Matrix Theory with Application to Time Series Forecasting [16.640336442849282]
我々は,マルチタスク最適化問題を正規化手法として定式化し,マルチタスク学習情報を活用することを可能とする。
線形モデルの文脈におけるマルチタスク最適化のための閉形式解を導出する。
論文 参考訳(メタデータ) (2024-06-14T17:59:25Z) - Multifidelity linear regression for scientific machine learning from scarce data [0.0]
本稿では,線形回帰を用いた科学機械学習のための多面的学習手法を提案する。
我々は,提案手法の精度を保証し,高忠実度データの少ないロバスト性を向上する新しい推定器のバイアスと分散分析を行う。
論文 参考訳(メタデータ) (2024-03-13T15:40:17Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Multi-Task Model Personalization for Federated Supervised SVM in
Heterogeneous Networks [10.169907307499916]
フェデレーションシステムは、モデルパーソナライゼーションを通じて、高度に異質なデータの協調トレーニングを可能にする。
マルチタスク・フェデレーション・セッティングにおける多様な参加者の学習手順を高速化するためには、より効率的で堅牢な手法を開発する必要がある。
本稿では,支援ベクトルマシン(SVM)のための乗算器の交互方向法(ADMM)に基づく効率的な反復分散手法を設計する。
提案手法は、異種ノードのネットワークにおける効率的な計算とモデル交換を利用し、非i.d.データの存在下で学習モデルのパーソナライズを可能にする。
論文 参考訳(メタデータ) (2023-03-17T21:36:01Z) - Multi-fidelity Hierarchical Neural Processes [79.0284780825048]
多要素代理モデリングは、異なるシミュレーション出力を融合させることで計算コストを削減する。
本稿では,多階層型階層型ニューラルネットワーク(MF-HNP)を提案する。
疫学および気候モデリングタスクにおけるMF-HNPの評価を行い、精度と不確実性評価の観点から競合性能を達成した。
論文 参考訳(メタデータ) (2022-06-10T04:54:13Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。