論文の概要: Revealing the Relationship Between Publication Bias and Chemical Reactivity with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2402.16882v2
- Date: Thu, 20 Feb 2025 16:50:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:25:48.728619
- Title: Revealing the Relationship Between Publication Bias and Chemical Reactivity with Contrastive Learning
- Title(参考訳): コントラスト学習における出版バイアスと化学反応性の関係について
- Authors: Wenhao Gao, Priyanka Raghavan, Ron Shprints, Connor W. Coley,
- Abstract要約: CAS Content Collection$textTM$で20,798 aryl halidesをトレーニングし,2010年から2015年にかけて数千の出版物を対象とした。
この研究は、新しい方法でデータ文学から学ぶための化学固有の機械学習訓練戦略を示すだけでなく、出版物における基質選択の傾向に反映される化学反応性の傾向を明らかにするためのユニークなアプローチを示す。
- 参考スコア(独自算出の注目度): 13.299207805882755
- License:
- Abstract: A synthetic method's substrate tolerance and generality are often showcased in a "substrate scope" table. However, substrate selection exhibits a frequently discussed publication bias: unsuccessful experiments or low-yielding results are rarely reported. In this work, we explore more deeply the relationship between such publication bias and chemical reactivity beyond the simple analysis of yield distributions using a novel neural network training strategy, substrate scope contrastive learning. By treating reported substrates as positive samples and non-reported substrates as negative samples, our contrastive learning strategy teaches a model to group molecules within a numerical embedding space, based on historical trends in published substrate scope tables. Training on 20,798 aryl halides in the CAS Content Collection$^{\text{TM}}$, spanning thousands of publications from 2010-2015, we demonstrate that the learned embeddings exhibit a correlation with physical organic reactivity descriptors through both intuitive visualizations and quantitative regression analyses. Additionally, these embeddings are applicable to various reaction modeling tasks like yield prediction and regioselectivity prediction, underscoring the potential to use historical reaction data as a pre-training task. This work not only presents a chemistry-specific machine learning training strategy to learn from literature data in a new way, but also represents a unique approach to uncover trends in chemical reactivity reflected by trends in substrate selection in publications.
- Abstract(参考訳): 合成法の基質耐性と一般性は、しばしば「基板スコープ」テーブルで示される。
しかし、基質選択は頻繁に議論される出版バイアスを示し、実験に失敗したり、低収率の結果が報告されることは滅多にない。
本研究では,新たなニューラルネットワーク学習手法である基板スコープコントラスト学習を用いて,収量分布の簡易解析を超えて,そのような出版バイアスと化学反応性の関係を深く研究する。
報告された基板を正のサンプルとして、非報告基板を負のサンプルとして扱うことにより、我々の対照的な学習戦略は、公表された基板スコープ表の歴史的傾向に基づいて、数値埋め込み空間内で分子をグループ化するモデルを教える。
20,798 aryl halides in the CAS Content Collection$^{\text{TM}}$, across the thousands of publications from 2010-2015, we demonstrated that the study embeddings exhibit a correlation with physical organic reactive descriptors through both intuitive visualizations and quantitative regression analysis。
さらに、これらの埋め込みは、収率予測や位置選択性予測といった様々な反応モデリングタスクに適用でき、過去の反応データを事前学習タスクとして使用する可能性を示している。
この研究は、文献データから新たな方法で学習するための化学固有の機械学習トレーニング戦略を示すだけでなく、出版物における基板選択の傾向に反映される化学反応性の傾向を明らかにするためのユニークなアプローチを示す。
関連論文リスト
- Challenging reaction prediction models to generalize to novel chemistry [12.33727805025678]
本稿では,SMILESに基づく深層学習モデルの一連の評価について報告する。
まず、ランダムにサンプリングされたデータセットのパフォーマンスが、新しい特許や新しい著者に一般化する際のパフォーマンスと比べて、過度に楽観的であることを示す。
第二に、トレーニングセットの何年にもわたってテストされたモデルがどのように機能するかを評価する時間分割を実施し、実際のデプロイメントを模倣します。
論文 参考訳(メタデータ) (2025-01-11T23:49:14Z) - Dynamic Post-Hoc Neural Ensemblers [55.15643209328513]
本研究では,ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ベースモデル予測をランダムにドロップすることでモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性を低くし、オーバーフィッティングを減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - Seeing Unseen: Discover Novel Biomedical Concepts via
Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。
構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。
スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文 参考訳(メタデータ) (2024-03-02T00:56:05Z) - A large dataset curation and benchmark for drug target interaction [0.7699646945563469]
生物活性データは、薬物の発見と再資源化において重要な役割を担っている。
複数の公開ソースからキュレートされた非常に大きなデータセットを標準化し、効率的に表現する方法を提案する。
論文 参考訳(メタデータ) (2024-01-30T17:06:25Z) - Data Attribution for Diffusion Models: Timestep-induced Bias in Influence Estimation [53.27596811146316]
拡散モデルは、以前の文脈における瞬間的な入出力関係ではなく、一連のタイムステップで操作する。
本稿では、この時間的ダイナミクスを取り入れた拡散トラクInについて、サンプルの損失勾配ノルムが時間ステップに大きく依存していることを確認する。
そこで我々はDiffusion-ReTracを再正規化適応として導入し、興味のあるサンプルを対象にしたトレーニングサンプルの検索を可能にする。
論文 参考訳(メタデータ) (2024-01-17T07:58:18Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Selection of pseudo-annotated data for adverse drug reaction
classification across drug groups [12.259552039796027]
我々は、さまざまな薬物群にまたがる最先端のニューラルアーキテクチャの堅牢性を評価する。
そこで我々は,手動で注釈付けした列車セットに加えて,擬似ラベル付きデータを使用するためのいくつかの戦略について検討した。
論文 参考訳(メタデータ) (2021-11-24T13:11:05Z) - Machine learning modeling of family wide enzyme-substrate specificity
screens [2.276367922551686]
バイオ触媒は、医薬品、複雑な天然物、商品化学物質を大規模に合成するための有望なアプローチである。
生体触媒の導入は、非天然基質上での化学的変換を触媒する酵素の選択能力によって制限される。
論文 参考訳(メタデータ) (2021-09-08T19:44:42Z) - RetCL: A Selection-based Approach for Retrosynthesis via Contrastive
Learning [107.64562550844146]
レトロシンセシスは深層学習の新たな研究分野である。
本稿では, 市販分子の候補群から, 反応物質の選択問題へとレトロシンセシスを再構成する新しいアプローチを提案する。
スコア機能を学ぶために、ハードネガティブマイニングを備えた新しいコントラストトレーニングスキームも提案します。
論文 参考訳(メタデータ) (2021-05-03T12:47:57Z) - Chemical Property Prediction Under Experimental Biases [26.407895054724452]
本研究は,実験データセットにおけるバイアス軽減に焦点を当てた。
我々は因果推論とグラフニューラルネットワークを組み合わせた2つの手法を用いて分子構造を表現した。
4つのバイアスシナリオによる実験結果から,逆確率スコアリング法と反実回帰法が確固たる改善をもたらしたことが示唆された。
論文 参考訳(メタデータ) (2020-09-18T08:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。