論文の概要: Are we making much progress? Revisiting chemical reaction yield
prediction from an imbalanced regression perspective
- arxiv url: http://arxiv.org/abs/2402.05971v1
- Date: Tue, 6 Feb 2024 18:11:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-18 14:07:00.117908
- Title: Are we making much progress? Revisiting chemical reaction yield
prediction from an imbalanced regression perspective
- Title(参考訳): かなり進歩していますか?
不均衡回帰から見た化学反応収率予測の再検討
- Authors: Yihong Ma, Xiaobao Huang, Bozhao Nan, Nuno Moniz, Xiangliang Zhang,
Olaf Wiest and Nitesh V. Chawla
- Abstract要約: 我々は,高収率予測における性能差は,低収率反応に歪んだ実世界のデータの不均衡分布から生じると論じる。
簡易なコスト依存再重み付け手法を組み込むことで, 未表現高収率領域における収率予測モデルの性能を大幅に向上できることを示す。
- 参考スコア(独自算出の注目度): 35.635321787079064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The yield of a chemical reaction quantifies the percentage of the target
product formed in relation to the reactants consumed during the chemical
reaction. Accurate yield prediction can guide chemists toward selecting
high-yield reactions during synthesis planning, offering valuable insights
before dedicating time and resources to wet lab experiments. While recent
advancements in yield prediction have led to overall performance improvement
across the entire yield range, an open challenge remains in enhancing
predictions for high-yield reactions, which are of greater concern to chemists.
In this paper, we argue that the performance gap in high-yield predictions
results from the imbalanced distribution of real-world data skewed towards
low-yield reactions, often due to unreacted starting materials and inherent
ambiguities in the reaction processes. Despite this data imbalance, existing
yield prediction methods continue to treat different yield ranges equally,
assuming a balanced training distribution. Through extensive experiments on
three real-world yield prediction datasets, we emphasize the urgent need to
reframe reaction yield prediction as an imbalanced regression problem. Finally,
we demonstrate that incorporating simple cost-sensitive re-weighting methods
can significantly enhance the performance of yield prediction models on
underrepresented high-yield regions.
- Abstract(参考訳): 化学反応の収率は、化学反応中に消費される反応物に関連して形成されるターゲット生成物の割合を定量する。
正確な収率予測は、合成計画中に高yield反応を選択するための化学者のガイドとなり、ウェットラボの実験に時間と資源を割く前に貴重な洞察を提供する。
近年の歩留まり予測の進歩は収量範囲全体の全体的な性能改善に繋がったが、化学者にとって大きな関心事である高yield反応の予測の強化には未解決の課題が残っている。
本稿では, 高収率予測における性能差は, 低収率反応に歪んだ実世界のデータの不均衡分布に起因すると論じる。
このデータ不均衡にもかかわらず、既存の収量予測法は、バランスの取れたトレーニング分布を仮定して、異なる収量範囲を等しく扱い続けている。
3つの実世界の収量予測データセットに関する広範囲な実験を通じて,不均衡回帰問題としての反応収量予測の再フレームの必要性を強調する。
最後に,簡易なコストセンシティブな再重み付け手法の導入により,低表示高yield領域における収率予測モデルの性能が著しく向上することを示す。
関連論文リスト
- Learning Chemical Reaction Representation with Reactant-Product Alignment [50.28123475356234]
本稿では,様々な有機反応関連タスクに適した新しい化学反応表現学習モデルであるモデルネームを紹介する。
反応物質と生成物との原子対応を統合することにより、反応中に生じる分子変換を識別し、反応機構の理解を深める。
反応条件を化学反応表現に組み込むアダプタ構造を設計し、様々な反応条件を処理し、様々なデータセットや下流タスク、例えば反応性能予測に適応できるようにした。
論文 参考訳(メタデータ) (2024-11-26T17:41:44Z) - log-RRIM: Yield Prediction via Local-to-global Reaction Representation Learning and Interaction Modeling [6.310759215182946]
log-RRIMは、化学反応の収量を予測するために設計された革新的なグラフトランスフォーマーベースのフレームワークである。
本手法は,一意の局所的-グローバル的反応表現学習戦略を実装している。
反応剤-試薬相互作用の高度なモデリングと小さな分子断片への感受性により、化学合成における反応計画と最適化のための貴重なツールとなる。
論文 参考訳(メタデータ) (2024-10-20T18:35:56Z) - Imputation for prediction: beware of diminishing returns [12.424671213282256]
失敗の値はさまざまな分野に分散しており、予測モデルをトレーニングしデプロイする上での課題を提起している。
最近の理論的および実証的な研究は、単純な定数計算が一貫性と競争力を持つことを示唆している。
本研究の目的は, 先進的な計算手法への投資が, 予測精度を著しく向上させるかどうかを明らかにすることである。
論文 参考訳(メタデータ) (2024-07-29T09:01:06Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Towards out-of-distribution generalizable predictions of chemical
kinetics properties [61.15970601264632]
Out-Of-Distribution (OOD) の運動特性予測は一般化可能である必要がある。
本稿では,OODの運動特性予測を3つのレベル(構造,条件,機構)に分類する。
我々は、OOD設定における反応予測のための最先端MLアプローチと、速度論的特性予測問題における最先端グラフOOD手法をベンチマークするために、包括的なデータセットを作成する。
論文 参考訳(メタデータ) (2023-10-04T20:36:41Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Dataset Bias in the Natural Sciences: A Case Study in Chemical Reaction
Prediction and Synthesis Design [0.8594140167290099]
化学反応予測と合成設計の分野における方向変化を必要とする3つのトレンドを同定する。
まず、反応データセットを反応物質と試薬に分解する方法は、非現実的な寛大な方法でテストモデルを奨励する。
第2に,誤記データの発生状況に注目し,データ適合性ではなく,異常除去に重点を置くべきであることを示唆する。
論文 参考訳(メタデータ) (2021-05-06T13:11:56Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。