論文の概要: SAFE setup for generative molecular design
- arxiv url: http://arxiv.org/abs/2410.20232v1
- Date: Sat, 26 Oct 2024 17:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:20:50.116996
- Title: SAFE setup for generative molecular design
- Title(参考訳): 生成分子設計のためのSAFEセットアップ
- Authors: Yassir El Mesbahi, Emmanuel Noutahi,
- Abstract要約: 逐次アタッチメントベースのフラグメント埋め込み(SAFE)表現は、SMILES生成モデルの代替として最近導入された。
本研究では,データセットのサイズ,乱数化によるデータ拡張,モデルアーキテクチャ,結合切断アルゴリズムに着目し,SAFE生成モデルのトレーニングのための最適設定について検討した。
より大きな、より多様なデータセットによってパフォーマンスが向上し、Rotary Positional Embeddingを使用したLLaMAアーキテクチャが最も堅牢であることが分かりました。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: SMILES-based molecular generative models have been pivotal in drug design but face challenges in fragment-constrained tasks. To address this, the Sequential Attachment-based Fragment Embedding (SAFE) representation was recently introduced as an alternative that streamlines those tasks. In this study, we investigate the optimal setups for training SAFE generative models, focusing on dataset size, data augmentation through randomization, model architecture, and bond disconnection algorithms. We found that larger, more diverse datasets improve performance, with the LLaMA architecture using Rotary Positional Embedding proving most robust. SAFE-based models also consistently outperform SMILES-based approaches in scaffold decoration and linker design, particularly with BRICS decomposition yielding the best results. These insights highlight key factors that significantly impact the efficacy of SAFE-based generative models.
- Abstract(参考訳): SMILESをベースとした分子生成モデルは医薬品設計において重要な役割を担っているが、フラグメント制約タスクでは課題に直面している。
これを解決するために、Sequential Attachment-based Fragment Embedding (SAFE) という表現が最近導入された。
本研究では,データセットのサイズ,乱数化によるデータ拡張,モデルアーキテクチャ,結合切断アルゴリズムに着目し,SAFE生成モデルのトレーニングのための最適設定について検討する。
より大きな、より多様なデータセットによってパフォーマンスが向上し、Rotary Positional Embeddingを使用したLLaMAアーキテクチャが最も堅牢であることが分かりました。
SAFEベースのモデルは、足場装飾やリンカーデザインにおいてSMILESベースのアプローチを一貫して上回り、特にBRICS分解が最良の結果をもたらした。
これらの知見は、SAFEベースの生成モデルの有効性に大きな影響を及ぼす重要な要因を浮き彫りにした。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。
ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文 参考訳(メタデータ) (2024-08-01T02:49:58Z) - Brain Stroke Segmentation Using Deep Learning Models: A Comparative Study [1.4651272514940197]
ストロークセグメンテーションは脳卒中患者の診断と治療において重要な役割を担っている。
一般的な医用画像分割のためのディープモデルが導入された。
本研究では,最近提案された4種類の深部モデルを選択し,脳卒中セグメンテーションの性能評価を行った。
論文 参考訳(メタデータ) (2024-03-25T20:44:01Z) - Gotta be SAFE: A New Framework for Molecular Design [1.135672229709142]
SAFE(Sequential Attachment-based Fragment Embedding)は化学構造のための新しい表記法である。
SAFEはSMILES文字列を、既存のSMILESsとの互換性を維持しながら、相互接続された断片ブロックの順序のないシーケンスとして再定義する。
我々のSAFE-GPTモデルは、多目的かつ堅牢な最適化性能を示す。
論文 参考訳(メタデータ) (2023-10-16T19:12:56Z) - CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain
Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。
また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文 参考訳(メタデータ) (2023-09-14T16:16:40Z) - Quantifying Overfitting: Introducing the Overfitting Index [0.0]
オーバーフィッティング(overfitting)とは、トレーニングデータでは優れたパフォーマンスを示すが、目に見えないデータではフェールである。
本稿では、モデルが過度に適合する傾向を定量的に評価するために考案された新しい指標であるOverfitting Index(OI)を紹介する。
我々の結果は、アーキテクチャ全体にわたる変数過度な振る舞いを強調し、データ拡張による緩和的な影響を強調します。
論文 参考訳(メタデータ) (2023-08-16T21:32:57Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - DA-VEGAN: Differentiably Augmenting VAE-GAN for microstructure
reconstruction from extremely small data sets [110.60233593474796]
DA-VEGANは2つの中心的なイノベーションを持つモデルである。
$beta$-variational autoencoderはハイブリッドGANアーキテクチャに組み込まれている。
このアーキテクチャに特化して、独自の差別化可能なデータ拡張スキームが開発されている。
論文 参考訳(メタデータ) (2023-02-17T08:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。