論文の概要: Data Transfer Approaches to Improve Seq-to-Seq Retrosynthesis
- arxiv url: http://arxiv.org/abs/2010.00792v1
- Date: Fri, 2 Oct 2020 05:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 00:40:35.574810
- Title: Data Transfer Approaches to Improve Seq-to-Seq Retrosynthesis
- Title(参考訳): データ転送によるSeq-to-Seq再合成の改善
- Authors: Katsuhiko Ishiguro, Kazuya Ujihara, Ryohto Sawada, Hirotaka Akita,
Masaaki Kotera
- Abstract要約: 再合成は、化学反応によって与えられた生成物化合物を合成するために反応化合物を推測する問題である。
レトロ合成に関する最近の研究は、より洗練された予測モデルの提案に焦点を当てている。
モデルをフィードするデータセットは、最高の一般化モデルを達成する上でも重要な役割を果たす。
- 参考スコア(独自算出の注目度): 1.6449390849183363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrosynthesis is a problem to infer reactant compounds to synthesize a given
product compound through chemical reactions. Recent studies on retrosynthesis
focus on proposing more sophisticated prediction models, but the dataset to
feed the models also plays an essential role in achieving the best generalizing
models. Generally, a dataset that is best suited for a specific task tends to
be small. In such a case, it is the standard solution to transfer knowledge
from a large or clean dataset in the same domain. In this paper, we conduct a
systematic and intensive examination of data transfer approaches on end-to-end
generative models, in application to retrosynthesis. Experimental results show
that typical data transfer methods can improve test prediction scores of an
off-the-shelf Transformer baseline model. Especially, the pre-training plus
fine-tuning approach boosts the accuracy scores of the baseline, achieving the
new state-of-the-art. In addition, we conduct a manual inspection for the
erroneous prediction results. The inspection shows that the pre-training plus
fine-tuning models can generate chemically appropriate or sensible proposals in
almost all cases.
- Abstract(参考訳): レトロシンセシスは、化学反応を通じて生成物化合物を合成するために反応物質を推測する問題である。
最近のレトロシンセシス研究は、より洗練された予測モデルの提案に焦点を当てているが、モデルに供給するデータセットは、最良の一般化モデルを達成する上でも重要な役割を果たす。
一般的に、特定のタスクに最も適したデータセットは小さい傾向があります。
そのような場合、同じドメインの大規模またはクリーンなデータセットから知識を転送する標準的なソリューションである。
本稿では, エンドツーエンド生成モデルにおけるデータ転送手法の体系的, 集中的な検討を行い, 逆合成への応用について述べる。
実験の結果, 従来のデータ転送手法は, 既設変圧器のベースラインモデルのテスト予測スコアを向上できることがわかった。
特に、事前トレーニングと微調整のアプローチは、ベースラインの精度スコアを高め、新しい最先端を達成する。
また,誤った予測結果に対する手作業による検査を行う。
検査の結果,事前学習モデルと微調整モデルは,ほぼすべてのケースにおいて,化学的に適切あるいは賢明な提案を生成できることがわかった。
関連論文リスト
- Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Transfer Learning for Molecular Property Predictions from Small Data Sets [0.0]
2つの小さなデータセット上での分子特性の予測のために、一般的な機械学習モデルをベンチマークする。
本稿では,大規模なデータセットを用いて各モデルを事前学習し,元のデータセットを微調整した上で,より正確なモデルを得ることができる転送学習戦略を提案する。
論文 参考訳(メタデータ) (2024-04-20T14:25:34Z) - Retrosynthesis prediction enhanced by in-silico reaction data
augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。
3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-31T07:40:37Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - MRCLens: an MRC Dataset Bias Detection Toolkit [82.44296974850639]
MRCLensは,ユーザがフルモデルをトレーニングする前に,バイアスが存在するかどうかを検出するツールキットである。
ツールキットの導入の便宜のために,MDCにおける共通バイアスの分類も提供する。
論文 参考訳(メタデータ) (2022-07-18T21:05:39Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Unassisted Noise Reduction of Chemical Reaction Data Sets [59.127921057012564]
本稿では,データセットから化学的に間違ったエントリを除去するための,機械学習に基づく無支援アプローチを提案する。
その結果,クリーン化およびバランスの取れたデータセットでトレーニングしたモデルの予測精度が向上した。
論文 参考訳(メタデータ) (2021-02-02T09:34:34Z) - Improving Molecular Design by Stochastic Iterative Target Augmentation [38.44457632751997]
分子設計における生成モデルは、豊かにパラメータ化され、データハングリーなニューラルモデルである。
分子標的を反復的に生成するための驚くほど効果的な自己学習手法を提案する。
我々の手法は、条件分子設計におけるこれまでの最先端技術よりも10%以上の絶対ゲインを達成している。
論文 参考訳(メタデータ) (2020-02-11T22:40:04Z) - Forecasting Industrial Aging Processes with Machine Learning Methods [0.0]
我々は、従来のステートレスモデルとより複雑なリカレントニューラルネットワークを比較して、幅広いデータ駆動モデルを評価する。
以上の結果から,リカレントモデルでは,より大きなデータセットでトレーニングした場合,ほぼ完璧な予測が得られた。
論文 参考訳(メタデータ) (2020-02-05T13:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。