論文の概要: Machine learning on DNA-encoded library count data using an
uncertainty-aware probabilistic loss function
- arxiv url: http://arxiv.org/abs/2108.12471v1
- Date: Fri, 27 Aug 2021 19:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:24:08.592530
- Title: Machine learning on DNA-encoded library count data using an
uncertainty-aware probabilistic loss function
- Title(参考訳): 不確実性を考慮した確率損失関数を用いたDNA符号化ライブラリカウントデータの機械学習
- Authors: Katherine S. Lim, Andrew G. Reidenbach, Bruce K. Hua, Jeremy W. Mason,
Christopher J. Gerry, Paul A. Clemons, Connor W. Coley
- Abstract要約: 本稿では, 個々の分子のDEL富化を, 独自の負の対数類似損失関数を用いて学習するための回帰的アプローチを示す。
このアプローチは、CAIXに対してスクリーニングされた108k化合物のデータセットと、sEHとSIRT2に対してスクリーニングされた5.7M化合物のデータセットについて説明する。
- 参考スコア(独自算出の注目度): 1.5559232742666467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DNA-encoded library (DEL) screening and quantitative structure-activity
relationship (QSAR) modeling are two techniques used in drug discovery to find
small molecules that bind a protein target. Applying QSAR modeling to DEL data
can facilitate the selection of compounds for off-DNA synthesis and evaluation.
Such a combined approach has been shown recently by training binary classifiers
to learn DEL enrichments of aggregated "disynthons" to accommodate the sparse
and noisy nature of DEL data. However, a binary classifier cannot distinguish
between different levels of enrichment, and information is potentially lost
during disynthon aggregation. Here, we demonstrate a regression approach to
learning DEL enrichments of individual molecules using a custom negative
log-likelihood loss function that effectively denoises DEL data and introduces
opportunities for visualization of learned structure-activity relationships
(SAR). Our approach explicitly models the Poisson statistics of the sequencing
process used in the DEL experimental workflow under a frequentist view. We
illustrate this approach on a dataset of 108k compounds screened against CAIX,
and a dataset of 5.7M compounds screened against sEH and SIRT2. Due to the
treatment of uncertainty in the data through the negative log-likelihood loss
function, the models can ignore low-confidence outliers. While our approach
does not demonstrate a benefit for extrapolation to novel structures, we expect
our denoising and visualization pipeline to be useful in identifying SAR trends
and enriched pharmacophores in DEL data. Further, this approach to
uncertainty-aware regression is applicable to other sparse or noisy datasets
where the nature of stochasticity is known or can be modeled; in particular,
the Poisson enrichment ratio metric we use can apply to other settings that
compare sequencing count data between two experimental conditions.
- Abstract(参考訳): DNAエンコードライブラリー(DEL)スクリーニングと量的構造活性相関(QSAR)モデリングは、タンパク質標的を結合する小さな分子を見つけるために薬物発見に使用される2つの手法である。
QSARモデリングをDELデータに適用することで、オフDNA合成および評価のための化合物の選択が容易になる。
このような組み合わせのアプローチは、最近、DELデータのスパースでノイズの多い性質に対応するために、集約された「ディシンソン」のDEL豊かさを学習するためのバイナリ分類器の訓練によって示されている。
しかし、バイナリ分類器は、異なるレベルの濃縮を区別できず、ディシントン凝集中に情報が失われる可能性がある。
本稿では,delデータを効果的にデノベーションし,学習構造-活性関係(sar)を可視化する機会を導入するカスタム負のlog-likelihood loss関数を用いて,個々の分子のデル富化を学習する回帰アプローチを示す。
本手法はDEL実験ワークフローで使用されるシークエンシング過程のポアソン統計を頻繁な視点でモデル化する。
本稿では、CAIXに対する108k化合物のデータセットと、sEHおよびSIRT2に対する5.7M化合物のデータセットについて説明する。
負の対数類似損失関数によるデータの不確実性の処理により、モデルは低信頼の外れ値を無視しうる。
提案手法は, 新規構造に対する外挿の利点を示すものではないが, DELデータにおけるSARトレンドの同定と医薬用疎水剤の濃縮に有効なデノナイズと可視化パイプラインが期待できる。
さらに、不確実性認識回帰に対するこのアプローチは、確率性の性質が知られている、あるいはモデル化できる他のスパースまたはノイズデータセットに適用され、特に、我々が使用するポアソン濃縮比メトリックは、2つの実験条件間でカウントデータをシークエンシングする他の設定に適用することができる。
関連論文リスト
- DEL-Ranking: Ranking-Correction Denoising Framework for Elucidating Molecular Affinities in DNA-Encoded Libraries [43.47251247740565]
DNAエンコードライブラリ(DEL)スクリーニングは、読み取りカウントによるタンパク質-リガンド相互作用の検出に革命をもたらした。
読み取りカウントのノイズは 特定の相互作用から生じる この探索プロセスを誤解させる可能性がある
DEL-Rankingは,これらの課題に対処する分布補正手法である。
論文 参考訳(メタデータ) (2024-10-19T02:32:09Z) - Exploiting the Data Gap: Utilizing Non-ignorable Missingness to Manipulate Model Learning [13.797822374912773]
敵対的ミススティングネス(AM)攻撃は、悪意ある無知の欠陥メカニズムによって動機づけられる。
本研究は,AM攻撃の文脈における連帯学習に焦点を当てる。
両レベルの最適化として,対向的欠落メカニズムの学習を定式化する。
論文 参考訳(メタデータ) (2024-09-06T17:10:28Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Assessing Neural Network Representations During Training Using
Noise-Resilient Diffusion Spectral Entropy [55.014926694758195]
ニューラルネットワークにおけるエントロピーと相互情報は、学習プロセスに関する豊富な情報を提供する。
データ幾何を利用して基礎となる多様体にアクセスし、これらの情報理論測度を確実に計算する。
本研究は,高次元シミュレーションデータにおける固有次元と関係強度の耐雑音性の測定結果である。
論文 参考訳(メタデータ) (2023-12-04T01:32:42Z) - Compositional Deep Probabilistic Models of DNA Encoded Libraries [6.206196935093064]
分子表現をモノシンソン,ジシンソン,トリシンソン構造ブロックに分解するDELデータ(DEL-Compose)の合成確率モデルを提案する。
本モデルでは, 基準値と比較して高い性能を示し, 適切な薬局網を充実させ, 内在的解釈可能な構造を通じて貴重な知見を提供する。
論文 参考訳(メタデータ) (2023-10-20T19:04:28Z) - DEL-Dock: Molecular Docking-Enabled Modeling of DNA-Encoded Libraries [1.290382979353427]
我々は、リガンドベースの記述子とドッキングされたタンパク質-リガンド複合体の3次元空間情報を組み合わせた新しいパラダイムDEL-Dockを導入する。
本モデルでは,分子富化スコアを予測するために,DELカウントデータを効果的にデノベートできることを示す。
論文 参考訳(メタデータ) (2022-11-30T22:00:24Z) - DynImp: Dynamic Imputation for Wearable Sensing Data Through Sensory and
Temporal Relatedness [78.98998551326812]
従来の手法では、データの時系列ダイナミクスと、異なるセンサーの特徴の関連性の両方をめったに利用していない、と我々は主張する。
我々はDynImpと呼ばれるモデルを提案し、特徴軸に沿って近接する隣人と異なる時間点の欠如を扱う。
本手法は, 関連センサのマルチモーダル性特性を活かし, 履歴時系列のダイナミックスから学習し, 極端に欠落した状態でデータを再構築することができることを示す。
論文 参考訳(メタデータ) (2022-09-26T21:59:14Z) - Learn from Unpaired Data for Image Restoration: A Variational Bayes
Approach [18.007258270845107]
境界分布から抽出したデータから結合確率密度関数を学習するための深層生成法 LUD-VAE を提案する。
本稿では,LUD-VAEによって生成された合成データを用いて,実世界の画像認識と超分解能タスクに適用し,モデルを訓練する。
論文 参考訳(メタデータ) (2022-04-21T13:27:17Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。