論文の概要: Unassisted Noise Reduction of Chemical Reaction Data Sets
- arxiv url: http://arxiv.org/abs/2102.01399v1
- Date: Tue, 2 Feb 2021 09:34:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:38:10.118770
- Title: Unassisted Noise Reduction of Chemical Reaction Data Sets
- Title(参考訳): 化学反応データ集合の無支援ノイズ低減
- Authors: Alessandra Toniato, Philippe Schwaller, Antonio Cardinale, Joppe
Geluykens and Teodoro Laino
- Abstract要約: 本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
- 参考スコア(独自算出の注目度): 59.127921057012564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing deep learning models applied to reaction prediction in organic
chemistry can reach high levels of accuracy (> 90% for Natural Language
Processing-based ones). With no chemical knowledge embedded than the
information learnt from reaction data, the quality of the data sets plays a
crucial role in the performance of the prediction models. While human curation
is prohibitively expensive, the need for unaided approaches to remove
chemically incorrect entries from existing data sets is essential to improve
artificial intelligence models' performance in synthetic chemistry tasks. Here
we propose a machine learning-based, unassisted approach to remove chemically
wrong entries from chemical reaction collections. We applied this method to the
collection of chemical reactions Pistachio and to an open data set, both
extracted from USPTO (United States Patent Office) patents. Our results show an
improved prediction quality for models trained on the cleaned and balanced data
sets. For the retrosynthetic models, the round-trip accuracy metric grows by 13
percentage points and the value of the cumulative Jensen Shannon divergence
decreases by 30% compared to its original record. The coverage remains high
with 97%, and the value of the class-diversity is not affected by the cleaning.
The proposed strategy is the first unassisted rule-free technique to address
automatic noise reduction in chemical data sets.
- Abstract(参考訳): 有機化学における反応予測に応用された既存のディープラーニングモデルは、高いレベルの精度(自然言語処理ベースでは90%)に達する可能性がある。
反応データから得られた情報以上に化学知識が組み込まれていないため、予測モデルの性能においてデータセットの品質が重要な役割を果たす。
人間のキュレーションは極めて高価だが、既存のデータセットから化学的に間違ったエントリを取り除くための支援のないアプローチの必要性は、合成化学タスクにおける人工知能モデルのパフォーマンスを改善するために不可欠である。
本稿では,化学反応コレクションから化学的に間違った成分を除去する機械学習による非支援手法を提案する。
我々はこの手法を,米国特許庁(USPTO)特許から抽出した化学反応ピスタチオとオープンデータセットの収集に適用した。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
逆合成モデルでは、ラウンドトリップ精度メトリックは13パーセントポイント増加し、累積Jensen Shannon発散の値は元のレコードと比較して30%減少します。
カバレッジは97%で高いままであり、クラス多様性の価値はクリーニングによって影響を受けません。
提案手法は,化学データの自動ノイズ低減に対処する最初の無規制手法である。
関連論文リスト
- ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。
化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。
このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。
収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文 参考訳(メタデータ) (2024-07-24T01:46:55Z) - An Autonomous Large Language Model Agent for Chemical Literature Data
Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。
本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - ReacLLaMA: Merging chemical and textual information in chemical
reactivity AI models [0.0]
化学反応性モデルは、分類(success/failure)や回帰(product yield)タスクの形式で化学反応の結果を予測するために開発されている。
報告されたモデルの大半は、反応剤、生成物、試薬、溶媒などの化学情報のみに基づいて訓練されている。
ここでは、Graphormerの反応性モデルを強化し、その精度を向上させることを目的とした手続きテキストの組み入れについて述べる。
論文 参考訳(メタデータ) (2024-01-30T18:57:08Z) - MetaRF: Differentiable Random Forest for Reaction Yield Prediction with
a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。
筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。
数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文 参考訳(メタデータ) (2022-08-22T06:40:13Z) - Dataset Bias in the Natural Sciences: A Case Study in Chemical Reaction
Prediction and Synthesis Design [0.8594140167290099]
化学反応予測と合成設計の分野における方向変化を必要とする3つのトレンドを同定する。
まず、反応データセットを反応物質と試薬に分解する方法は、非現実的な寛大な方法でテストモデルを奨励する。
第2に,誤記データの発生状況に注目し,データ適合性ではなく,異常除去に重点を置くべきであることを示唆する。
論文 参考訳(メタデータ) (2021-05-06T13:11:56Z) - Data Transfer Approaches to Improve Seq-to-Seq Retrosynthesis [1.6449390849183363]
再合成は、化学反応によって与えられた生成物化合物を合成するために反応化合物を推測する問題である。
レトロ合成に関する最近の研究は、より洗練された予測モデルの提案に焦点を当てている。
モデルをフィードするデータセットは、最高の一般化モデルを達成する上でも重要な役割を果たす。
論文 参考訳(メタデータ) (2020-10-02T05:27:51Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。