Fugu-MT 論文翻訳(概要): Unassisted Noise Reduction of Chemical Reaction Data Sets

論文の概要: Unassisted Noise Reduction of Chemical Reaction Data Sets

arxiv url: http://arxiv.org/abs/2102.01399v1
Date: Tue, 2 Feb 2021 09:34:34 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-03 16:38:10.118770
Title: Unassisted Noise Reduction of Chemical Reaction Data Sets
Title（参考訳）: 化学反応データ集合の無支援ノイズ低減
Authors: Alessandra Toniato, Philippe Schwaller, Antonio Cardinale, Joppe Geluykens and Teodoro Laino
Abstract要約: 本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
参考スコア（独自算出の注目度）: 59.127921057012564
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Existing deep learning models applied to reaction prediction in organic chemistry can reach high levels of accuracy (> 90% for Natural Language Processing-based ones). With no chemical knowledge embedded than the information learnt from reaction data, the quality of the data sets plays a crucial role in the performance of the prediction models. While human curation is prohibitively expensive, the need for unaided approaches to remove chemically incorrect entries from existing data sets is essential to improve artificial intelligence models' performance in synthetic chemistry tasks. Here we propose a machine learning-based, unassisted approach to remove chemically wrong entries from chemical reaction collections. We applied this method to the collection of chemical reactions Pistachio and to an open data set, both extracted from USPTO (United States Patent Office) patents. Our results show an improved prediction quality for models trained on the cleaned and balanced data sets. For the retrosynthetic models, the round-trip accuracy metric grows by 13 percentage points and the value of the cumulative Jensen Shannon divergence decreases by 30% compared to its original record. The coverage remains high with 97%, and the value of the class-diversity is not affected by the cleaning. The proposed strategy is the first unassisted rule-free technique to address automatic noise reduction in chemical data sets.
Abstract（参考訳）: 有機化学における反応予測に応用された既存のディープラーニングモデルは、高いレベルの精度(自然言語処理ベースでは90%)に達する可能性がある。反応データから得られた情報以上に化学知識が組み込まれていないため、予測モデルの性能においてデータセットの品質が重要な役割を果たす。人間のキュレーションは極めて高価だが、既存のデータセットから化学的に間違ったエントリを取り除くための支援のないアプローチの必要性は、合成化学タスクにおける人工知能モデルのパフォーマンスを改善するために不可欠である。本稿では,化学反応コレクションから化学的に間違った成分を除去する機械学習による非支援手法を提案する。我々はこの手法を,米国特許庁(USPTO)特許から抽出した化学反応ピスタチオとオープンデータセットの収集に適用した。その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。逆合成モデルでは、ラウンドトリップ精度メトリックは13パーセントポイント増加し、累積Jensen Shannon発散の値は元のレコードと比較して30%減少します。カバレッジは97%で高いままであり、クラス多様性の価値はクリーニングによって影響を受けません。提案手法は,化学データの自動ノイズ低減に対処する最初の無規制手法である。

関連論文リスト

Socrates-Mol: Self-Oriented Cognitive Reasoning through Autonomous Trial-and-Error with Empirical-Bayesian Screening for Molecules [10.161713741692568]
本稿では,言語モデルを経験的ベイズ推論に変換するフレームワークであるSocrates-Molを紹介する。産業スクリーニングの優先順位に合わせたランキングタスクを導入し、5つの言語モデルにまたがる相互モデルの自己整合性を適用し、分散を低減する。このフレームワークは、完全な微調整に比べてデプロイコストを70%以上削減し、分子特性予測のためのスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-11-14T08:02:47Z)
ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文参考訳（メタデータ） (2025-06-30T05:11:19Z)
Interpretable Deep Learning for Polar Mechanistic Reaction Prediction [43.95903801494905]
PMechRP(Polar Mechanistic Reaction Predictor)は,PMechDBデータセット上で機械学習モデルをトレーニングするシステムである。私たちは、トランスフォーマーベース、グラフベース、および2段階のシアムアーキテクチャを含む、さまざまな機械学習モデルの比較をトレーニングします。私たちの最高のパフォーマンスのアプローチはハイブリッドモデルで、5アンサンブルのChemformerモデルと2ステップのSiameseフレームワークを組み合わせたものです。
論文参考訳（メタデータ） (2025-04-22T02:31:23Z)
Chemical knowledge-informed framework for privacy-aware retrosynthesis learning [60.93245342663455]
現在の機械学習に基づくレトロシンセシスは、複数のソースからの反応データを1つのエッジに集め、予測モデルを訓練する。このパラダイムは、組織の境界を越えた広範なデータ可用性を必要とするため、かなりのプライバシーリスクをもたらす。本研究では, 化学知識インフォームド・フレームワーク (CKIF) について紹介する。
論文参考訳（メタデータ） (2025-02-26T13:13:24Z)
Machine learning in wastewater treatment: insights from modelling a pilot denitrification reactor [0.0]
ノルウェーのヴェアス処理施設にあるパイロット・リアクターのデータを用いて、生物学的硝酸塩の最適化に機械学習をどのように利用できるかを探る。予測精度にのみ焦点をあてるのではなく、本手法は効果的なデータ駆動モデリングのための基礎的要件を理解することを優先する。
論文参考訳（メタデータ） (2024-12-18T16:49:23Z)
ScholarChemQA: Unveiling the Power of Language Models in Chemical Research Question Answering [54.80411755871931]
質問回答(QA)は、言語モデルの推論と知識の深さを効果的に評価する。化学QAは、複雑な化学情報を理解しやすい形式に効果的に翻訳することで、教育と研究の両方において重要な役割を担っている。このデータセットは、不均衡なデータ分散や、潜在的に有用である可能性のあるかなりの量の未ラベルデータを含む、典型的な現実世界の課題を反映している。収集したデータを完全に活用して,化学的な問題に効果的に答えるQAMatchモデルを提案する。
論文参考訳（メタデータ） (2024-07-24T01:46:55Z)
An Autonomous Large Language Model Agent for Chemical Literature Data Mining [60.85177362167166]
本稿では,幅広い化学文献から高忠実度抽出が可能なエンドツーエンドAIエージェントフレームワークを提案する。本フレームワークの有効性は,反応条件データの精度,リコール,F1スコアを用いて評価する。
論文参考訳（メタデータ） (2024-02-20T13:21:46Z)
Retrosynthesis prediction enhanced by in-silico reaction data augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。 3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-31T07:40:37Z)
ReacLLaMA: Merging chemical and textual information in chemical reactivity AI models [0.0]
化学反応性モデルは、分類(success/failure)や回帰(product yield)タスクの形式で化学反応の結果を予測するために開発されている。報告されたモデルの大半は、反応剤、生成物、試薬、溶媒などの化学情報のみに基づいて訓練されている。ここでは、Graphormerの反応性モデルを強化し、その精度を向上させることを目的とした手続きテキストの組み入れについて述べる。
論文参考訳（メタデータ） (2024-01-30T18:57:08Z)
MetaRF: Differentiable Random Forest for Reaction Yield Prediction with a Few Trails [58.47364143304643]
本稿では,反応収率予測問題に焦点をあてる。筆者らはまず,数発の収量予測のために特別に設計された,注意に基づく識別可能なランダム森林モデルであるMetaRFを紹介した。数発の学習性能を改善するために,さらに次元還元に基づくサンプリング手法を導入する。
論文参考訳（メタデータ） (2022-08-22T06:40:13Z)
Dataset Bias in the Natural Sciences: A Case Study in Chemical Reaction Prediction and Synthesis Design [0.8594140167290099]
化学反応予測と合成設計の分野における方向変化を必要とする3つのトレンドを同定する。まず、反応データセットを反応物質と試薬に分解する方法は、非現実的な寛大な方法でテストモデルを奨励する。第2に,誤記データの発生状況に注目し,データ適合性ではなく,異常除去に重点を置くべきであることを示唆する。
論文参考訳（メタデータ） (2021-05-06T13:11:56Z)
Data Transfer Approaches to Improve Seq-to-Seq Retrosynthesis [1.6449390849183363]
再合成は、化学反応によって与えられた生成物化合物を合成するために反応化合物を推測する問題である。レトロ合成に関する最近の研究は、より洗練された予測モデルの提案に焦点を当てている。モデルをフィードするデータセットは、最高の一般化モデルを達成する上でも重要な役割を果たす。
論文参考訳（メタデータ） (2020-10-02T05:27:51Z)
Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost Functions [80.12620331438052]
深層学習はサイリコの何十億もの分子を迅速にスクリーニングする重要なツールとなりましたその重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文参考訳（メタデータ） (2020-06-25T08:46:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。