論文の概要: Multitask methods for predicting molecular properties from heterogeneous data
- arxiv url: http://arxiv.org/abs/2401.17898v2
- Date: Sat, 25 May 2024 03:10:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 07:54:38.253139
- Title: Multitask methods for predicting molecular properties from heterogeneous data
- Title(参考訳): 不均一データから分子特性を予測するマルチタスク法
- Authors: Katharine Fisher, Michael Herbst, Youssef Marzouk,
- Abstract要約: マルチタスクガウス過程の回帰は、高価なデータソースと安価なデータソースの両方を活用することで制限を克服することを示した。
マルチタスクサロゲートは,データ生成コストを1桁以上削減し,CCレベルの精度で予測可能であることを報告した。
マルチタスクレグレッションは、既存のデータソースを機会的に活用することによって、データ生成コストをさらに削減するためのツールである。
- 参考スコア(独自算出の注目度): 0.27309692684728615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data generation remains a bottleneck in training surrogate models to predict molecular properties. We demonstrate that multitask Gaussian process regression overcomes this limitation by leveraging both expensive and cheap data sources. In particular, we consider training sets constructed from coupled-cluster (CC) and density functional theory (DFT) data. We report that multitask surrogates can predict at CC-level accuracy with a reduction to data generation cost by over an order of magnitude. Of note, our approach allows the training set to include DFT data generated by a heterogeneous mix of exchange-correlation functionals without imposing any artificial hierarchy on functional accuracy. More generally, the multitask framework can accommodate a wider range of training set structures -- including full disparity between the different levels of fidelity -- than existing kernel approaches based on $\Delta$-learning, though we show that the accuracy of the two approaches can be similar. Consequently, multitask regression can be a tool for reducing data generation costs even further by opportunistically exploiting existing data sources.
- Abstract(参考訳): データ生成は、分子特性を予測するために代理モデルを訓練する際のボトルネックである。
マルチタスクガウス過程の回帰は、高価なデータソースと安価なデータソースの両方を活用することで、この制限を克服することを実証する。
特に,結合クラスタ(CC)と密度汎関数理論(DFT)のデータから構築したトレーニングセットを検討する。
マルチタスクサロゲートは,データ生成コストを1桁以上削減し,CCレベルの精度で予測可能であることを報告した。
なお,本手法では,関数の精度に人工的階層を課すことなく,不均一な相互相関関数の混合によって生成されたDFTデータをトレーニングセットに含めることができる。
より一般的には、multitaskフレームワークは、$\Delta$-learningに基づく既存のカーネルアプローチと、異なるレベルの忠実さの完全な相違を含む、幅広いトレーニングセット構造に対応できるが、この2つのアプローチの正確性は似ていることを示している。
したがって、マルチタスク回帰は、既存のデータソースを機会的に活用することで、データ生成コストをさらに削減できるツールである。
関連論文リスト
- Analysing Multi-Task Regression via Random Matrix Theory with Application to Time Series Forecasting [16.640336442849282]
我々は,マルチタスク最適化問題を正規化手法として定式化し,マルチタスク学習情報を活用することを可能とする。
線形モデルの文脈におけるマルチタスク最適化のための閉形式解を導出する。
論文 参考訳(メタデータ) (2024-06-14T17:59:25Z) - Multifidelity linear regression for scientific machine learning from scarce data [0.0]
本稿では,線形回帰を用いた科学機械学習のための多面的学習手法を提案する。
我々は,提案手法の精度を保証し,高忠実度データの少ないロバスト性を向上する新しい推定器のバイアスと分散分析を行う。
論文 参考訳(メタデータ) (2024-03-13T15:40:17Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - Multi-fidelity Fourier Neural Operator for Fast Modeling of Large-Scale
Geological Carbon Storage [0.0]
本稿では,大規模炭素貯蔵問題の解決にFNO(Multi-fidelity Fourier Neural operator)を提案する。
我々はまず,GCS貯水池モデル上で110kの格子セルに離散化されたモデルの有効性を検証した。
マルチ忠実度モデルは、同じ量の高忠実度データを81%のコストでトレーニングした高忠実度モデルに匹敵する精度で予測できる。
論文 参考訳(メタデータ) (2023-08-17T17:44:59Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Multi-Task Model Personalization for Federated Supervised SVM in
Heterogeneous Networks [10.169907307499916]
フェデレーションシステムは、モデルパーソナライゼーションを通じて、高度に異質なデータの協調トレーニングを可能にする。
マルチタスク・フェデレーション・セッティングにおける多様な参加者の学習手順を高速化するためには、より効率的で堅牢な手法を開発する必要がある。
本稿では,支援ベクトルマシン(SVM)のための乗算器の交互方向法(ADMM)に基づく効率的な反復分散手法を設計する。
提案手法は、異種ノードのネットワークにおける効率的な計算とモデル交換を利用し、非i.d.データの存在下で学習モデルのパーソナライズを可能にする。
論文 参考訳(メタデータ) (2023-03-17T21:36:01Z) - Robust Direct Learning for Causal Data Fusion [14.462235940634969]
我々は、他のニュアンス関数から処理効果を分離するマルチソースデータを統合するためのフレームワークを提供する。
また,半パラメトリック効率理論の理論的洞察に基づく因果情報認識重み付け関数を提案する。
論文 参考訳(メタデータ) (2022-11-01T03:33:22Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Multi-fidelity Hierarchical Neural Processes [79.0284780825048]
多要素代理モデリングは、異なるシミュレーション出力を融合させることで計算コストを削減する。
本稿では,多階層型階層型ニューラルネットワーク(MF-HNP)を提案する。
疫学および気候モデリングタスクにおけるMF-HNPの評価を行い、精度と不確実性評価の観点から競合性能を達成した。
論文 参考訳(メタデータ) (2022-06-10T04:54:13Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。