論文の概要: SoDaDE: Solvent Data-Driven Embeddings with Small Transformer Models
- arxiv url: http://arxiv.org/abs/2509.22302v1
- Date: Fri, 26 Sep 2025 13:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.439675
- Title: SoDaDE: Solvent Data-Driven Embeddings with Small Transformer Models
- Title(参考訳): SoDaDE: 小さなトランスフォーマーモデルによるデータ駆動型埋め込みの解決
- Authors: Gabriel Kitso Gibberd, Jose Pablo Folch, Antonio Del Rio Chanona,
- Abstract要約: 溶媒データ駆動型埋め込み(SoDaDE)の開発による新しい溶媒表現法を提案する。
SoDaDEは小さなトランスモデルと溶媒特性データセットを使用して、溶媒の指紋を生成する。
この論文を通じて、データ駆動型指紋は小さなデータセットで作成でき、他のアプリケーションで探索可能なワークフローをセットアップできることを実証する。
- 参考スコア(独自算出の注目度): 0.7115692149520956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computational representations have become crucial in unlocking the recent growth of machine learning algorithms for chemistry. Initially hand-designed, machine learning has shown that meaningful representations can be learnt from data. Chemical datasets are limited and so the representations learnt from data are generic, being trained on broad datasets which contain shallow information on many different molecule types. For example, generic fingerprints lack physical context specific to solvents. However, the use of harmful solvents is a leading climate-related issue in the chemical industry, and there is a surge of interest in green solvent replacement. To empower this research, we propose a new solvent representation scheme by developing Solvent Data Driven Embeddings (SoDaDE). SoDaDE uses a small transformer model and solvent property dataset to create a fingerprint for solvents. To showcase their effectiveness, we use SoDaDE to predict yields on a recently published dataset, outperforming previous representations. We demonstrate through this paper that data-driven fingerprints can be made with small datasets and set-up a workflow that can be explored for other applications.
- Abstract(参考訳): 計算表現は、最近の化学のための機械学習アルゴリズムの成長を解き放つのに欠かせないものとなっている。
当初手作業で設計された機械学習は、データから意味のある表現を学習できることを示してきた。
化学データセットは限られており、データから学習した表現は汎用的であり、多くの異なる分子種の浅い情報を含む広いデータセットで訓練されている。
例えば、一般的な指紋は溶媒に特有の物理的文脈を欠いている。
しかし、有害溶剤の使用は化学産業において主要な気候問題であり、緑色溶剤の代替への関心が高まっている。
本研究では,SoDaDE(Soolvent Data Driven Embeddings)の開発による新しい溶媒表現手法を提案する。
SoDaDEは小さなトランスモデルと溶媒特性データセットを使用して、溶媒の指紋を生成する。
それらの効果を示すために、私たちは最近公開されたデータセットの収量予測にSoDaDEを使用し、以前の表現よりも優れています。
この論文を通じて、データ駆動型指紋は小さなデータセットで作成でき、他のアプリケーションで探索可能なワークフローをセットアップできることを実証する。
関連論文リスト
- The Catechol Benchmark: Time-series Solvent Selection Data for Few-shot Machine Learning [4.864188241160383]
我々は、機械学習ベンチマークのための最初の過渡フローデータセットを提供する、収差予測のための新しいデータセットを提案する。
以前のデータセットは離散パラメータに焦点を当てていましたが、実験的なセットアップによって、多数の継続的プロセス条件をサンプリングすることができます。
我々は,特に理論的にモデル化が難しい課題である溶媒選択に焦点をあてる。
論文 参考訳(メタデータ) (2025-06-09T10:34:14Z) - VECT-GAN: A variationally encoded generative model for overcoming data scarcity in pharmaceutical science [32.92218213317144]
既存のデータセットは小さく、ノイズが多いため、有効性は制限されることが多い。
我々は、小型でノイズの多いデータセットを増強するために特別に設計された生成モデルを開発する。
我々は,ChEMBL 上で事前学習した VECT-GAN を pip パッケージとして利用できるようにした。
論文 参考訳(メタデータ) (2025-01-15T18:23:33Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Graph Neural Networks with Trainable Adjacency Matrices for Fault
Diagnosis on Multivariate Sensor Data [69.25738064847175]
各センサの信号の挙動を別々に検討し,相互の相関関係と隠れ関係を考慮する必要がある。
グラフノードは、異なるセンサーからのデータとして表現することができ、エッジは、これらのデータの影響を互いに表示することができる。
グラフニューラルネットワークのトレーニング中にグラフを構築する方法が提案されている。これにより、センサー間の依存関係が事前に分かっていないデータ上でモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-10-20T11:03:21Z) - Advancing Reacting Flow Simulations with Data-Driven Models [50.9598607067535]
マルチ物理問題における機械学習ツールの効果的な利用の鍵は、それらを物理モデルとコンピュータモデルに結合することである。
本章では, 燃焼システムにおけるデータ駆動型低次モデリングの適用可能性について概説する。
論文 参考訳(メタデータ) (2022-09-05T16:48:34Z) - SOLIS: Autonomous Solubility Screening using Deep Neural Networks [0.36700088931938835]
サンプル準備は手作業で行うのが一般的である。
結晶化実験は多くの化学分野において、精製とポリモルフィックスクリーニング実験の両方で一般的である。
本研究では, 人間の化学者が試料を視覚的に評価し, 溶液中に固形物が完全に溶解したかどうかを判断する手法に着想を得た, 新規なカスケード深部モデルを提案する。
論文 参考訳(メタデータ) (2022-03-18T09:38:23Z) - Understanding and Preparing Data of Industrial Processes for Machine
Learning Applications [0.0]
本稿では, 非線形生産ラインの異なる生産ユニットにおけるセンサの非有効性に起因する, 欠落値の問題に対処する。
データのごく一部が欠落している場合、これらの欠落した値はしばしば暗示される。
本稿では,大量の観測データを除去することなく,利用可能なすべてのデータを活用できる手法を提案する。
論文 参考訳(メタデータ) (2021-09-08T07:39:11Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - New Properties of the Data Distillation Method When Working With Tabular
Data [77.34726150561087]
データ蒸留は、必要な情報のみを保持しながら、トレーニングデータの量を減らす問題である。
蒸留した試料でトレーニングしたモデルは、元のデータセットでトレーニングしたモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-19T20:27:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。