論文の概要: Unassisted Noise Reduction of Chemical Reaction Data Sets
- arxiv url: http://arxiv.org/abs/2102.01399v1
- Date: Tue, 2 Feb 2021 09:34:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:38:10.118770
- Title: Unassisted Noise Reduction of Chemical Reaction Data Sets
- Title(参考訳): 化学反応データ集合の無支援ノイズ低減
- Authors: Alessandra Toniato, Philippe Schwaller, Antonio Cardinale, Joppe
Geluykens and Teodoro Laino
- Abstract要約: 本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
- 参考スコア(独自算出の注目度): 59.127921057012564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing deep learning models applied to reaction prediction in organic
chemistry can reach high levels of accuracy (> 90% for Natural Language
Processing-based ones). With no chemical knowledge embedded than the
information learnt from reaction data, the quality of the data sets plays a
crucial role in the performance of the prediction models. While human curation
is prohibitively expensive, the need for unaided approaches to remove
chemically incorrect entries from existing data sets is essential to improve
artificial intelligence models' performance in synthetic chemistry tasks. Here
we propose a machine learning-based, unassisted approach to remove chemically
wrong entries from chemical reaction collections. We applied this method to the
collection of chemical reactions Pistachio and to an open data set, both
extracted from USPTO (United States Patent Office) patents. Our results show an
improved prediction quality for models trained on the cleaned and balanced data
sets. For the retrosynthetic models, the round-trip accuracy metric grows by 13
percentage points and the value of the cumulative Jensen Shannon divergence
decreases by 30% compared to its original record. The coverage remains high
with 97%, and the value of the class-diversity is not affected by the cleaning.
The proposed strategy is the first unassisted rule-free technique to address
automatic noise reduction in chemical data sets.
- Abstract(参考訳): 有機化学における反応予測に応用された既存のディープラーニングモデルは、高いレベルの精度(自然言語処理ベースでは90%)に達する可能性がある。
反応データから得られた情報以上に化学知識が組み込まれていないため、予測モデルの性能においてデータセットの品質が重要な役割を果たす。
人間のキュレーションは極めて高価だが、既存のデータセットから化学的に間違ったエントリを取り除くための支援のないアプローチの必要性は、合成化学タスクにおける人工知能モデルのパフォーマンスを改善するために不可欠である。
本稿では,化学反応コレクションから化学的に間違った成分を除去する機械学習による非支援手法を提案する。
我々はこの手法を,米国特許庁(USPTO)特許から抽出した化学反応ピスタチオとオープンデータセットの収集に適用した。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
逆合成モデルでは、ラウンドトリップ精度メトリックは13パーセントポイント増加し、累積Jensen Shannon発散の値は元のレコードと比較して30%減少します。
カバレッジは97%で高いままであり、クラス多様性の価値はクリーニングによって影響を受けません。
提案手法は,化学データの自動ノイズ低減に対処する最初の無規制手法である。
関連論文リスト
- Retrosynthesis Prediction with Local Template Retrieval [112.23386062396622]
特定の標的分子の反応を予測する再合成は、薬物発見に必須の課題である。
本稿では,局所的な反応テンプレート検索手法であるRetroKNNを紹介する。
我々は、広く使われている2つのベンチマーク、USPTO-50KとUSPTO-MITで包括的な実験を行う。
論文 参考訳(メタデータ) (2023-06-07T03:38:03Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Application of Dimensional Reduction in Artificial Neural Networks to
Improve Emergency Department Triage During Chemical Mass Casualty Incidents [0.5156484100374058]
ケミカル・マス・カジュアルティ・インシデント(MCI)は、病院職員やリソースに重きを置き、機械学習(ML)ツールは介護者に効率的な意思決定支援を提供する。
本研究では,311種類の有害化学物質と79種類の徴候および症状のデータセットを削減するための4つの統計的次元減少手法の適用について検討した。
以上の結果から, 化学原因の特定に必要な徴候や症状の数は, モデル精度を低下させることなく, 40 SSx程度に削減できることがわかった。
論文 参考訳(メタデータ) (2022-04-01T18:04:23Z) - Dataset Bias in the Natural Sciences: A Case Study in Chemical Reaction
Prediction and Synthesis Design [0.8594140167290099]
化学反応予測と合成設計の分野における方向変化を必要とする3つのトレンドを同定する。
まず、反応データセットを反応物質と試薬に分解する方法は、非現実的な寛大な方法でテストモデルを奨励する。
第2に,誤記データの発生状況に注目し,データ適合性ではなく,異常除去に重点を置くべきであることを示唆する。
論文 参考訳(メタデータ) (2021-05-06T13:11:56Z) - A Generative Model to Synthesize EEG Data for Epileptic Seizure
Prediction [3.8271082752302137]
本稿では, 合成脳波サンプルを生成するための深層畳み込み生成対向ネットワークを提案する。
我々は合成データ、すなわち1クラスSVMと、畳み込みてんかん発作予測器(CESP)と呼ばれる新しい提案を2つの手法で検証する。
以上の結果から,CESPモデルでは78.11%,88.21%,FPR0.27/h,0.14/hの感度が得られた。
論文 参考訳(メタデータ) (2020-12-01T12:00:36Z) - Extracting Chemical-Protein Interactions via Calibrated Deep Neural
Network and Self-training [0.8376091455761261]
データ不確実性を推定し、信頼性を向上させるため、ディープラーニングモデルに"校正"技術が適用されている。
本研究では, 化学物質-タンパク質相互作用を抽出するために, 不確実性情報とキャリブレーション手法を取り入れたDNNベースの手法を提案する。
我々の手法は,従来の手法よりも高い校正能力を維持しつつ,Biocreative VI ChemProtタスクに関して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-11-04T10:14:31Z) - Data Transfer Approaches to Improve Seq-to-Seq Retrosynthesis [1.6449390849183363]
再合成は、化学反応によって与えられた生成物化合物を合成するために反応化合物を推測する問題である。
レトロ合成に関する最近の研究は、より洗練された予測モデルの提案に焦点を当てている。
モデルをフィードするデータセットは、最高の一般化モデルを達成する上でも重要な役割を果たす。
論文 参考訳(メタデータ) (2020-10-02T05:27:51Z) - Retro*: Learning Retrosynthetic Planning with Neural Guided A* Search [83.22850633478302]
反合成計画(retrosynthetic planning)は、ターゲット生成物の合成に繋がる一連の反応を特定する。
既存の手法では、高いばらつきを持つロールアウトによる高価なリターン推定が必要か、品質よりも探索速度を最適化する必要がある。
本稿では,高品質な合成経路を効率よく見つけるニューラルネットワークA*ライクなアルゴリズムRetro*を提案する。
論文 参考訳(メタデータ) (2020-06-29T05:53:33Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。