論文の概要: Retrosynthesis prediction enhanced by in-silico reaction data
augmentation
- arxiv url: http://arxiv.org/abs/2402.00086v1
- Date: Wed, 31 Jan 2024 07:40:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 17:50:25.539920
- Title: Retrosynthesis prediction enhanced by in-silico reaction data
augmentation
- Title(参考訳): シリカ反応データ増強による再合成予測
- Authors: Xu Zhang and Yiming Mo and Wenguan Wang and Yi Yang
- Abstract要約: RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 66.5643280109899
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in machine learning (ML) have expedited retrosynthesis
research by assisting chemists to design experiments more efficiently. However,
all ML-based methods consume substantial amounts of paired training data (i.e.,
chemical reaction: product-reactant(s) pair), which is costly to obtain.
Moreover, companies view reaction data as a valuable asset and restrict the
accessibility to researchers. These issues prevent the creation of more
powerful retrosynthesis models due to their data-driven nature. As a response,
we exploit easy-to-access unpaired data (i.e., one component of
product-reactant(s) pair) for generating in-silico paired data to facilitate
model training. Specifically, we present RetroWISE, a self-boosting framework
that employs a base model inferred from real paired data to perform in-silico
reaction generation and augmentation using unpaired data, ultimately leading to
a superior model. On three benchmark datasets, RetroWISE achieves the best
overall performance against state-of-the-art models (e.g., +8.6% top-1 accuracy
on the USPTO-50K test dataset). Moreover, it consistently improves the
prediction accuracy of rare transformations. These results show that Retro-
WISE overcomes the training bottleneck by in-silico reactions, thereby paving
the way toward more effective ML-based retrosynthesis models.
- Abstract(参考訳): 機械学習(ML)の最近の進歩は、化学者がより効率的に実験を設計できるように支援することで、再合成の研究を迅速化している。
しかしながら、全てのMLベースの手法は、かなりの量のペアトレーニングデータ(化学反応:製品-反応性(s)ペア)を消費する。
さらに、企業は反応データを貴重な資産とみなし、研究者へのアクセシビリティを制限している。
これらの問題は、データ駆動性によるより強力な逆合成モデルの作成を妨げる。
その結果, 容易にアクセス可能な非ペアデータ(すなわち, 製品-反応体(s)ペアの1つのコンポーネント)を用いて, シリカ内ペアデータを生成することで, モデルトレーニングが容易になる。
具体的には、実際のペアデータから推定されるベースモデルを用いて、未ペアデータを用いてシリコン内反応生成および拡張を行うセルフブートフレームワークであるRetroWISEについて述べる。
3つのベンチマークデータセットでは、RetroWISEは最先端モデル(USPTO-50Kテストデータセットでは+8.6%)に対して最高の全体的なパフォーマンスを達成する。
さらに,レアトランスフォーメーションの予測精度を一貫して向上させる。
これらの結果から,RetroWISEはシリコン内反応によるトレーニングボトルネックを克服し,より効果的なMLベースレトロシンセシスモデルへの道を開いた。
関連論文リスト
- log-RRIM: Yield Prediction via Local-to-global Reaction Representation Learning and Interaction Modeling [6.310759215182946]
log-RRIMは、化学反応の収量を予測するために設計された革新的なグラフトランスフォーマーベースのフレームワークである。
本手法は,一意の局所的-グローバル的反応表現学習戦略を実装している。
反応剤-試薬相互作用の高度なモデリングと小さな分子断片への感受性により、化学合成における反応計画と最適化のための貴重なツールとなる。
論文 参考訳(メタデータ) (2024-10-20T18:35:56Z) - ReacLLaMA: Merging chemical and textual information in chemical
reactivity AI models [0.0]
化学反応性モデルは、分類(success/failure)や回帰(product yield)タスクの形式で化学反応の結果を予測するために開発されている。
報告されたモデルの大半は、反応剤、生成物、試薬、溶媒などの化学情報のみに基づいて訓練されている。
ここでは、Graphormerの反応性モデルを強化し、その精度を向上させることを目的とした手続きテキストの組み入れについて述べる。
論文 参考訳(メタデータ) (2024-01-30T18:57:08Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - PartMix: Regularization Strategy to Learn Part Discovery for
Visible-Infrared Person Re-identification [76.40417061480564]
本稿では、パートベース可視赤外線人物再識別(VI-ReID)モデルに対して、PartMixと呼ばれる新しいデータ拡張手法を提案する。
部分記述子をモダリティに混合することにより、拡張サンプルを合成し、パートベースVI-ReIDモデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-04-04T05:21:23Z) - Backdoor Attacks Against Dataset Distillation [24.39067295054253]
本研究は,画像領域におけるデータセット蒸留モデルにより抽出されたデータに基づいて訓練されたモデルに対して,最初のバックドア攻撃を行う。
本研究では,NAIVEATTACKとDOORPINGの2種類のバックドア攻撃を提案する。
実験的な評価では、NAIVEATTACKは攻撃成功率(ASR)をある程度達成し、DOORPINGは全てのケースでより高いASRスコア(1.0に近かった)に達する。
論文 参考訳(メタデータ) (2023-01-03T16:58:34Z) - Multimodal Transformer-based Model for Buchwald-Hartwig and
Suzuki-Miyaura Reaction Yield Prediction [0.0]
このモデルは、事前訓練された双方向トランスフォーマーベースのエンコーダ(BERT)と、回帰ヘッドを備えた多層パーセプトロン(MLP)から構成され、収量を予測する。
我々は、Buchwald-Hartwigのサンプル外のデータセット分割でモデルのパフォーマンスをテストし、最先端技術で同等の結果を得た。
論文 参考訳(メタデータ) (2022-04-27T07:28:27Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - Data Transfer Approaches to Improve Seq-to-Seq Retrosynthesis [1.6449390849183363]
再合成は、化学反応によって与えられた生成物化合物を合成するために反応化合物を推測する問題である。
レトロ合成に関する最近の研究は、より洗練された予測モデルの提案に焦点を当てている。
モデルをフィードするデータセットは、最高の一般化モデルを達成する上でも重要な役割を果たす。
論文 参考訳(メタデータ) (2020-10-02T05:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。