論文の概要: Predicting Chemical Properties using Self-Attention Multi-task Learning
based on SMILES Representation
- arxiv url: http://arxiv.org/abs/2010.11272v1
- Date: Mon, 19 Oct 2020 09:46:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 22:43:42.642062
- Title: Predicting Chemical Properties using Self-Attention Multi-task Learning
based on SMILES Representation
- Title(参考訳): SMILES表現に基づく自己注意型マルチタスク学習による化学特性の予測
- Authors: Sangrak Lim and Yong Oh Lee
- Abstract要約: 本研究では,変圧器変圧器モデルの構造的差異について検討し,新しい自己注意モデルを提案する。
不均衡な化学データセットを用いたマルチタスク学習環境において,自己認識モジュールの表現学習性能を評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the computational prediction of chemical compound properties, molecular
descriptors and fingerprints encoded to low dimensional vectors are used. The
selection of proper molecular descriptors and fingerprints is both important
and challenging as the performance of such models is highly dependent on
descriptors. To overcome this challenge, natural language processing models
that utilize simplified molecular input line-entry system as input were
studied, and several transformer-variant models achieved superior results when
compared with conventional methods. In this study, we explored the structural
differences of the transformer-variant model and proposed a new self-attention
based model. The representation learning performance of the self-attention
module was evaluated in a multi-task learning environment using imbalanced
chemical datasets. The experiment results showed that our model achieved
competitive outcomes on several benchmark datasets. The source code of our
experiment is available at https://github.com/arwhirang/sa-mtl and the dataset
is available from the same URL.
- Abstract(参考訳): 化学化合物特性の計算予測では、低次元ベクトルに符号化された分子記述子と指紋を用いる。
適切な分子ディスクリプタと指紋の選択は、これらのモデルの性能がディスクリプタに大きく依存するため、重要かつ困難である。
この課題を克服するために, 簡易な分子入力線入力を入力として利用する自然言語処理モデルについて検討し, トランスフォーマティヴモデルが従来の手法と比較して優れた結果を得た。
本研究では,トランス変圧器モデルの構造的差異を考察し,新しい自己拘束型モデルを提案する。
セルフアテンションモジュールの表現学習性能を,不均衡化学データセットを用いたマルチタスク学習環境で評価した。
実験の結果,いくつかのベンチマークデータセットで比較結果が得られた。
実験のソースコードはhttps://github.com/arwhirang/sa-mtlで公開されています。
関連論文リスト
- Generative Modeling of Molecular Dynamics Trajectories [12.255021091552441]
データからMDの柔軟なマルチタスクサロゲートモデルを学ぶためのパラダイムとして,分子軌道の生成モデルを提案する。
このような生成モデルは,前方シミュレーションや遷移経路サンプリング,軌道上アップサンプリングといった多様なタスクに適応可能であることを示す。
論文 参考訳(メタデータ) (2024-09-26T13:02:28Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - SELFormer: Molecular Representation Learning via SELFIES Language Models [0.0]
本研究では,トランスアーキテクチャに基づく化学言語モデルであるSELFormerを提案する。
SELFormerは200万の薬物類似化合物で事前訓練され、様々な分子特性予測タスクのために微調整されている。
性能評価の結果,SELFormerはグラフ学習に基づくアプローチやSMILESに基づく化学言語モデルなど,競合するすべての手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T15:38:25Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Calibration and generalizability of probabilistic models on low-data
chemical datasets with DIONYSUS [0.0]
我々は、小さな化学データセット上での確率論的機械学習モデルの校正と一般化可能性について広範な研究を行う。
私たちは、さまざまなタスク(バイナリ、回帰)とデータセットにおける予測と不確実性の品質を分析します。
我々は、新しい化学実験において一般的なシナリオである、小さな化学データセットをモデル化するためのモデルと特徴の選択に関する実践的な洞察を提供する。
論文 参考訳(メタデータ) (2022-12-03T08:19:06Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - Improving VAE based molecular representations for compound property
prediction [0.0]
機械学習モデルの化学特性予測性能を簡易に向上する手法を提案する。
本稿では,プロパティ予測モデルの性能と,プロパティ予測データセットとより大きなラベル付きデータセットとの距離の関係を示す。
論文 参考訳(メタデータ) (2022-01-13T12:57:11Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。