論文の概要: Machine learning on DNA-encoded library count data using an
uncertainty-aware probabilistic loss function
- arxiv url: http://arxiv.org/abs/2108.12471v1
- Date: Fri, 27 Aug 2021 19:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:24:08.592530
- Title: Machine learning on DNA-encoded library count data using an
uncertainty-aware probabilistic loss function
- Title(参考訳): 不確実性を考慮した確率損失関数を用いたDNA符号化ライブラリカウントデータの機械学習
- Authors: Katherine S. Lim, Andrew G. Reidenbach, Bruce K. Hua, Jeremy W. Mason,
Christopher J. Gerry, Paul A. Clemons, Connor W. Coley
- Abstract要約: 本稿では, 個々の分子のDEL富化を, 独自の負の対数類似損失関数を用いて学習するための回帰的アプローチを示す。
このアプローチは、CAIXに対してスクリーニングされた108k化合物のデータセットと、sEHとSIRT2に対してスクリーニングされた5.7M化合物のデータセットについて説明する。
- 参考スコア(独自算出の注目度): 1.5559232742666467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DNA-encoded library (DEL) screening and quantitative structure-activity
relationship (QSAR) modeling are two techniques used in drug discovery to find
small molecules that bind a protein target. Applying QSAR modeling to DEL data
can facilitate the selection of compounds for off-DNA synthesis and evaluation.
Such a combined approach has been shown recently by training binary classifiers
to learn DEL enrichments of aggregated "disynthons" to accommodate the sparse
and noisy nature of DEL data. However, a binary classifier cannot distinguish
between different levels of enrichment, and information is potentially lost
during disynthon aggregation. Here, we demonstrate a regression approach to
learning DEL enrichments of individual molecules using a custom negative
log-likelihood loss function that effectively denoises DEL data and introduces
opportunities for visualization of learned structure-activity relationships
(SAR). Our approach explicitly models the Poisson statistics of the sequencing
process used in the DEL experimental workflow under a frequentist view. We
illustrate this approach on a dataset of 108k compounds screened against CAIX,
and a dataset of 5.7M compounds screened against sEH and SIRT2. Due to the
treatment of uncertainty in the data through the negative log-likelihood loss
function, the models can ignore low-confidence outliers. While our approach
does not demonstrate a benefit for extrapolation to novel structures, we expect
our denoising and visualization pipeline to be useful in identifying SAR trends
and enriched pharmacophores in DEL data. Further, this approach to
uncertainty-aware regression is applicable to other sparse or noisy datasets
where the nature of stochasticity is known or can be modeled; in particular,
the Poisson enrichment ratio metric we use can apply to other settings that
compare sequencing count data between two experimental conditions.
- Abstract(参考訳): DNAエンコードライブラリー(DEL)スクリーニングと量的構造活性相関(QSAR)モデリングは、タンパク質標的を結合する小さな分子を見つけるために薬物発見に使用される2つの手法である。
QSARモデリングをDELデータに適用することで、オフDNA合成および評価のための化合物の選択が容易になる。
このような組み合わせのアプローチは、最近、DELデータのスパースでノイズの多い性質に対応するために、集約された「ディシンソン」のDEL豊かさを学習するためのバイナリ分類器の訓練によって示されている。
しかし、バイナリ分類器は、異なるレベルの濃縮を区別できず、ディシントン凝集中に情報が失われる可能性がある。
本稿では,delデータを効果的にデノベーションし,学習構造-活性関係(sar)を可視化する機会を導入するカスタム負のlog-likelihood loss関数を用いて,個々の分子のデル富化を学習する回帰アプローチを示す。
本手法はDEL実験ワークフローで使用されるシークエンシング過程のポアソン統計を頻繁な視点でモデル化する。
本稿では、CAIXに対する108k化合物のデータセットと、sEHおよびSIRT2に対する5.7M化合物のデータセットについて説明する。
負の対数類似損失関数によるデータの不確実性の処理により、モデルは低信頼の外れ値を無視しうる。
提案手法は, 新規構造に対する外挿の利点を示すものではないが, DELデータにおけるSARトレンドの同定と医薬用疎水剤の濃縮に有効なデノナイズと可視化パイプラインが期待できる。
さらに、不確実性認識回帰に対するこのアプローチは、確率性の性質が知られている、あるいはモデル化できる他のスパースまたはノイズデータセットに適用され、特に、我々が使用するポアソン濃縮比メトリックは、2つの実験条件間でカウントデータをシークエンシングする他の設定に適用することができる。
関連論文リスト
- Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Counterfactual Data Augmentation with Contrastive Learning [27.28511396131235]
本稿では,選択したサブセットに対して,結果に反する結果をもたらすモデルに依存しないデータ拡張手法を提案する。
我々は、比較学習を用いて表現空間と類似度尺度を学習し、学習された類似度尺度で同定された個人に近い学習空間において、同様の潜在的な結果が得られるようにした。
この性質は、代替治療群から近接した近縁者に対する対実的な結果の信頼性の高い計算を保証する。
論文 参考訳(メタデータ) (2023-11-07T00:36:51Z) - Compositional Deep Probabilistic Models of DNA Encoded Libraries [6.206196935093064]
分子表現をモノシンソン,ジシンソン,トリシンソン構造ブロックに分解するDELデータ(DEL-Compose)の合成確率モデルを提案する。
本モデルでは, 基準値と比較して高い性能を示し, 適切な薬局網を充実させ, 内在的解釈可能な構造を通じて貴重な知見を提供する。
論文 参考訳(メタデータ) (2023-10-20T19:04:28Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - DEL-Dock: Molecular Docking-Enabled Modeling of DNA-Encoded Libraries [1.290382979353427]
我々は、リガンドベースの記述子とドッキングされたタンパク質-リガンド複合体の3次元空間情報を組み合わせた新しいパラダイムDEL-Dockを導入する。
本モデルでは,分子富化スコアを予測するために,DELカウントデータを効果的にデノベートできることを示す。
論文 参考訳(メタデータ) (2022-11-30T22:00:24Z) - Mutual Information Learned Classifiers: an Information-theoretic
Viewpoint of Training Deep Learning Classification Systems [9.660129425150926]
クロスエントロピー損失は、重度のオーバーフィッティング動作を示すモデルを見つけるのに容易である。
本稿では,既存のDNN分類器のクロスエントロピー損失最小化が,基礎となるデータ分布の条件エントロピーを本質的に学習することを証明する。
ラベルと入力の相互情報を学習することで、DNN分類器を訓練する相互情報学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T15:09:19Z) - DynImp: Dynamic Imputation for Wearable Sensing Data Through Sensory and
Temporal Relatedness [78.98998551326812]
従来の手法では、データの時系列ダイナミクスと、異なるセンサーの特徴の関連性の両方をめったに利用していない、と我々は主張する。
我々はDynImpと呼ばれるモデルを提案し、特徴軸に沿って近接する隣人と異なる時間点の欠如を扱う。
本手法は, 関連センサのマルチモーダル性特性を活かし, 履歴時系列のダイナミックスから学習し, 極端に欠落した状態でデータを再構築することができることを示す。
論文 参考訳(メタデータ) (2022-09-26T21:59:14Z) - Learn from Unpaired Data for Image Restoration: A Variational Bayes
Approach [18.007258270845107]
境界分布から抽出したデータから結合確率密度関数を学習するための深層生成法 LUD-VAE を提案する。
本稿では,LUD-VAEによって生成された合成データを用いて,実世界の画像認識と超分解能タスクに適用し,モデルを訓練する。
論文 参考訳(メタデータ) (2022-04-21T13:27:17Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。