論文の概要: Multitask methods for predicting molecular properties from heterogeneous
data
- arxiv url: http://arxiv.org/abs/2401.17898v1
- Date: Wed, 31 Jan 2024 15:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:18:14.908684
- Title: Multitask methods for predicting molecular properties from heterogeneous
data
- Title(参考訳): 不均一データから分子特性を予測するマルチタスク法
- Authors: Katharine Fisher, Michael Herbst, Youssef Marzouk
- Abstract要約: マルチタスクガウス過程の回帰は、高価なデータソースと安価なデータソースの両方を活用することで制限を克服することを示した。
マルチタスクサロゲートは,データ生成コストを1桁以上削減することで,CCレベルの精度で予測可能であることを報告した。
マルチタスクレグレッションは、既存のデータソースを機会的に活用することによって、データ生成コストをさらに削減するためのツールである。
- 参考スコア(独自算出の注目度): 0.3069335774032178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data generation remains a bottleneck in training surrogate models to predict
molecular properties. We demonstrate that multitask Gaussian process regression
overcomes this limitation by leveraging both expensive and cheap data sources.
In particular, we consider training sets constructed from coupled-cluster (CC)
and density function theory (DFT) data. We report that multitask surrogates can
predict at CC level accuracy with a reduction to data generation cost by over
an order of magnitude. Of note, our approach allows the training set to include
DFT data generated by a heterogeneous mix of exchange-correlation functionals
without imposing any artificial hierarchy on functional accuracy. More
generally, the multitask framework can accommodate a wider range of training
set structures -- including full disparity between the different levels of
fidelity -- than existing kernel approaches based on $\Delta$-learning, though
we show that the accuracy of the two approaches can be similar. Consequently,
multitask regression can be a tool for reducing data generation costs even
further by opportunistically exploiting existing data sources.
- Abstract(参考訳): データ生成は、分子特性を予測するために代理モデルを訓練する際のボトルネックである。
マルチタスクガウス過程の回帰は、高価なデータソースと安価なデータソースの両方を活用することで、この制限を克服することを実証する。
特に,結合クラスタ(CC)と密度関数理論(DFT)のデータから構築したトレーニングセットを検討する。
マルチタスクサロゲートは,データ生成コストを1桁以上削減することで,CCレベルの精度で予測可能であることを報告した。
なお,本手法では,関数の精度に人工的な階層を課すことなく,交換相関関数の不均一な混合によって生成されたDFTデータをトレーニングセットに含めることができる。
より一般的には、multitaskフレームワークは、$\Delta$-learningに基づく既存のカーネルアプローチと、異なるレベルの忠実さの完全な相違を含む、幅広いトレーニングセット構造に対応できるが、この2つのアプローチの正確性は似ていることを示している。
したがって、マルチタスク回帰は、既存のデータソースを機会的に活用することで、データ生成コストをさらに削減できるツールである。
関連論文リスト
- Multifidelity linear regression for scientific machine learning from
scarce data [0.0]
本稿では,科学機械学習のための多要素学習手法を提案する。
様々な忠実さとコストのデータが利用できる科学的な文脈を利用する。
本研究では,高忠実度データを学習した学習モデルが,高忠実度データのみを学習した標準モデルよりも,高忠実度データを訓練した学習モデルよりも低次モデルの分散を実現することを示す。
論文 参考訳(メタデータ) (2024-03-13T15:40:17Z) - Multi-Fidelity Residual Neural Processes for Scalable Surrogate Modeling [20.76939585108783]
マルチフィデリティ・サロゲートモデリングは,複数の情報源からのデータを組み合わせることで,最も高いフィデリティレベルで正確なサロゲートを学習することを目的としている。
ディープラーニングアプローチでは、ニューラルネットワークベースのエンコーダとデコーダを使用してスケーラビリティを向上させる。
我々は,MFRNP(Multi-fidelity Residual Neural Processs)が偏微分方程式の学習や実世界の気候モデリングのタスクにおいて,現状を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-02-29T04:40:25Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - Multi-fidelity Fourier Neural Operator for Fast Modeling of Large-Scale
Geological Carbon Storage [0.0]
本稿では,大規模炭素貯蔵問題の解決にFNO(Multi-fidelity Fourier Neural operator)を提案する。
我々はまず,GCS貯水池モデル上で110kの格子セルに離散化されたモデルの有効性を検証した。
マルチ忠実度モデルは、同じ量の高忠実度データを81%のコストでトレーニングした高忠実度モデルに匹敵する精度で予測できる。
論文 参考訳(メタデータ) (2023-08-17T17:44:59Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - Multi-Task Model Personalization for Federated Supervised SVM in
Heterogeneous Networks [10.169907307499916]
フェデレーションシステムは、モデルパーソナライゼーションを通じて、高度に異質なデータの協調トレーニングを可能にする。
マルチタスク・フェデレーション・セッティングにおける多様な参加者の学習手順を高速化するためには、より効率的で堅牢な手法を開発する必要がある。
本稿では,支援ベクトルマシン(SVM)のための乗算器の交互方向法(ADMM)に基づく効率的な反復分散手法を設計する。
提案手法は、異種ノードのネットワークにおける効率的な計算とモデル交換を利用し、非i.d.データの存在下で学習モデルのパーソナライズを可能にする。
論文 参考訳(メタデータ) (2023-03-17T21:36:01Z) - Robust Direct Learning for Causal Data Fusion [14.462235940634969]
我々は、他のニュアンス関数から処理効果を分離するマルチソースデータを統合するためのフレームワークを提供する。
また,半パラメトリック効率理論の理論的洞察に基づく因果情報認識重み付け関数を提案する。
論文 参考訳(メタデータ) (2022-11-01T03:33:22Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Multi-fidelity Hierarchical Neural Processes [79.0284780825048]
多要素代理モデリングは、異なるシミュレーション出力を融合させることで計算コストを削減する。
本稿では,多階層型階層型ニューラルネットワーク(MF-HNP)を提案する。
疫学および気候モデリングタスクにおけるMF-HNPの評価を行い、精度と不確実性評価の観点から競合性能を達成した。
論文 参考訳(メタデータ) (2022-06-10T04:54:13Z) - Brain Image Synthesis with Unsupervised Multivariate Canonical
CSC$\ell_4$Net [122.8907826672382]
我々は,新しいCSC$ell_4$Netを用いて,イントレとイントラモーダルの両方にまたがる専用特徴を学習することを提案する。
論文 参考訳(メタデータ) (2021-03-22T05:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。