論文の概要: Learning Continuous Solvent Effects from Transient Flow Data: A Graph Neural Network Benchmark on Catechol Rearrangement
- arxiv url: http://arxiv.org/abs/2512.19530v1
- Date: Mon, 22 Dec 2025 16:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.829454
- Title: Learning Continuous Solvent Effects from Transient Flow Data: A Graph Neural Network Benchmark on Catechol Rearrangement
- Title(参考訳): 過渡流データから連続溶媒効果を学習する:カテコール再配置に関するグラフニューラルネットワークベンチマーク
- Authors: Hongsheng Xing, Qiuxin Si,
- Abstract要約: この研究は、高スループットな過渡的フロー化学データセットである textbfCatechol Benchmarkを導入している。
化学環境への一般化を実証するため, 厳密な溶出・溶出プロトコルおよび溶出・溶出プロトコルによる各種アーキテクチャの評価を行った。
本稿では,グラフ注意ネットワーク(GAT)と差動反応フィンガープリント(DRFP)を統合し,混合認識符号化を学習するハイブリッドGNNアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting reaction outcomes across continuous solvent composition ranges remains a critical challenge in organic synthesis and process chemistry. Traditional machine learning approaches often treat solvent identity as a discrete categorical variable, which prevents systematic interpolation and extrapolation across the solvent space. This work introduces the \textbf{Catechol Benchmark}, a high-throughput transient flow chemistry dataset comprising 1,227 experimental yield measurements for the rearrangement of allyl-substituted catechol in 24 pure solvents and their binary mixtures, parameterized by continuous volume fractions ($\% B$). We evaluate various architectures under rigorous leave-one-solvent-out and leave-one-mixture-out protocols to test generalization to unseen chemical environments. Our results demonstrate that classical tabular methods (e.g., Gradient-Boosted Decision Trees) and large language model embeddings (e.g., Qwen-7B) struggle with quantitative precision, yielding Mean Squared Errors (MSE) of 0.099 and 0.129, respectively. In contrast, we propose a hybrid GNN-based architecture that integrates Graph Attention Networks (GATs) with Differential Reaction Fingerprints (DRFP) and learned mixture-aware solvent encodings. This approach achieves an \textbf{MSE of 0.0039} ($\pm$ 0.0003), representing a 60\% error reduction over competitive baselines and a $>25\times$ improvement over tabular ensembles. Ablation studies confirm that explicit molecular graph message-passing and continuous mixture encoding are essential for robust generalization. The complete dataset, evaluation protocols, and reference implementations are released to facilitate data-efficient reaction prediction and continuous solvent representation learning.
- Abstract(参考訳): 連続溶媒組成範囲にわたる反応の結果を予測することは、有機合成とプロセス化学において重要な課題である。
従来の機械学習手法は、溶媒のアイデンティティを離散的な分類変数として扱うことが多く、溶媒空間の体系的な補間や外挿を防ぐ。
この研究は、24個の純溶媒とそれらの二成分混合物にアリル置換カテコールを再配置するための1,227の実験的収率測定値からなる高スループット過渡的な流れ化学データセットである「textbf{Catechol Benchmark}」を紹介した。
化学環境への一般化を実証するため, 厳密な溶出・溶出プロトコルおよび溶出・溶出プロトコルによる各種アーキテクチャの評価を行った。
以上の結果から,従来の表形式的手法(グラディエント・ブースト決定木など)と大規模言語モデル埋め込み(Qwen-7Bなど)は,それぞれ0.099および0.129のMean Squared Errors(MSE)が得られる。
対照的に,グラフ注意ネットワーク(GAT)と微分反応フィンガープリント(DRFP)を統合し,混合型溶媒エンコーディングを学習するハイブリッドGNNアーキテクチャを提案する。
このアプローチは、競合するベースラインに対して 60 % のエラー削減と、表のアンサンブルに対する $>25 の値改善を表す、0.0039} の \textbf{MSE (0.0039) を達成する。
アブレーション研究により、明示的な分子グラフメッセージパッシングと連続混合符号化が堅牢な一般化に不可欠であることが確認された。
完全なデータセット、評価プロトコル、参照実装がリリースされ、データ効率のよい反応予測と連続溶媒表現学習が容易になる。
関連論文リスト
- Contrastive Multi-Task Learning with Solvent-Aware Augmentation for Drug Discovery [3.4776689202566824]
各種溶媒条件下で生成する配位子コンフォメーションアンサンブルを付加入力として組み込んだ事前学習法を提案する。
トレーニングプロセスは、分子再構成を統合し、局所的な幾何学、原子間距離予測、および対照的な学習を捉え、溶媒不変の分子表現を構築する。
このフレームワークは、溶媒を意識したマルチタスクモデリングをサポートし、ベンチマーク間で一貫した結果を生成する。
論文 参考訳(メタデータ) (2025-08-03T15:25:42Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Robust Graph-Based Semi-Supervised Learning via $p$-Conductances [49.0776396776252]
本研究では,データラベルが不足している,あるいは破損しているような状況下でのグラフに対する半教師付き学習の課題について検討する。
我々は、$p$-laplace と Poisson の学習方法を一般化した $p$-conductance learning という手法を提案する。
コンピュータビジョンと引用データセットの実証実験結果から,本手法が低ラベルレート, 劣化ラベル, 部分ラベルレジームにおける最先端の精度を実現することを示す。
論文 参考訳(メタデータ) (2025-02-13T01:11:25Z) - A Unified Approach to Inferring Chemical Compounds with the Desired Aqueous Solubility [5.763661159910719]
水溶性(AS)は、医薬品の発見と材料設計において重要な役割を果たす重要な物理化学的性質である。
本稿では,単純な決定論的グラフ理論記述子に基づいて,化学化合物を所望のASで予測し,推定するための新しい統一的アプローチについて報告する。
論文 参考訳(メタデータ) (2024-09-06T14:20:38Z) - Accelerating Drug Safety Assessment using Bidirectional-LSTM for SMILES Data [0.0]
Bi-Directional Long Short Term Memory (BiLSTM) は、入力分子配列を処理するリカレントニューラルネットワーク(RNN)の変種である。
提案した研究は、SMILES文字列にコードされたシーケンシャルパターンを理解することを目的としており、それによって分子の毒性を予測する。
論文 参考訳(メタデータ) (2024-07-08T18:12:11Z) - Graph Out-of-Distribution Generalization with Controllable Data
Augmentation [51.17476258673232]
グラフニューラルネットワーク(GNN)は,グラフ特性の分類において異常な性能を示した。
トレーニングとテストデータの選択バイアスが原因で、分散偏差が広まっています。
仮想サンプルの分布偏差を測定するためのOODキャリブレーションを提案する。
論文 参考訳(メタデータ) (2023-08-16T13:10:27Z) - End-to-End Supervised Multilabel Contrastive Learning [38.26579519598804]
マルチラベル表現学習は、オブジェクトカテゴリ間のラベル依存やデータ関連の問題に関連付けられる難しい問題として認識されている。
近年の進歩は、モデルとデータ中心の視点からこれらの課題に対処している。
KMCLと呼ばれる新しいエンドツーエンドのトレーニングフレームワークを提案し、モデルとデータ中心の設計の欠点に対処する。
論文 参考訳(メタデータ) (2023-07-08T12:46:57Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Categorizing Semantic Representations for Neural Machine Translation [53.88794787958174]
ソースの文脈化表現に分類を導入する。
主な考え方は、スパーシリティとオーバーフィッティングを減らして一般化を強化することである。
MTデータセットを用いた実験により,提案手法は構成一般化誤差率を24%削減することを示した。
論文 参考訳(メタデータ) (2022-10-13T04:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。