論文の概要: nach0-pc: Multi-task Language Model with Molecular Point Cloud Encoder
- arxiv url: http://arxiv.org/abs/2410.09240v1
- Date: Fri, 11 Oct 2024 20:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 15:33:30.171957
- Title: nach0-pc: Multi-task Language Model with Molecular Point Cloud Encoder
- Title(参考訳): nach0-pc: 分子点クラウドエンコーダを用いたマルチタスク言語モデル
- Authors: Maksim Kuznetsov, Airat Valiev, Alex Aliper, Daniil Polykovskiy, Elena Tutubalina, Rim Shayakhmetov, Zulfat Miftahutdinov,
- Abstract要約: nach0-pcは、ドメイン固有のエンコーダとテキスト表現を組み合わせて、原子の空間配置を効果的に処理するモデルである。
本稿では,空間分子構造データセットから知識を抽出するための,分子点雲のための新しい事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 8.125243669908318
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements have integrated Language Models (LMs) into a drug discovery pipeline. However, existing models mostly work with SMILES and SELFIES chemical string representations, which lack spatial features vital for drug discovery. Additionally, attempts to translate chemical 3D structures into text format encounter issues such as excessive length and insufficient atom connectivity information. To address these issues, we introduce nach0-pc, a model combining domain-specific encoder and textual representation to handle spatial arrangement of atoms effectively. Our approach utilizes a molecular point cloud encoder for concise and order-invariant structure representation. We introduce a novel pre-training scheme for molecular point clouds to distillate the knowledge from spatial molecular structures datasets. After fine-tuning within both single-task and multi-task frameworks, nach0-pc demonstrates performance comparable with other diffusion models in terms of generated samples quality across several established spatial molecular generation tasks. Notably, our model is a multi-task approach, in contrast to diffusion models being limited to single tasks. Additionally, it is capable of processing point cloud-related data, which language models are not capable of handling due to memory limitations. These lead to our model having reduced training and inference time while maintaining on par performance.
- Abstract(参考訳): 近年の進歩は、言語モデル(LM)を薬物発見パイプラインに統合している。
しかし、既存のモデルは主にSMILESとSELFIESの化学文字列表現で動作するが、薬物発見には空間的特徴が欠如している。
さらに、化学3D構造体をテキスト形式に翻訳しようとする試みは、過剰な長さや不十分な原子接続情報といった問題に直面している。
これらの問題に対処するために,ドメイン固有エンコーダとテキスト表現を組み合わせて,原子の空間配置を効果的に処理するモデルであるnach0-pcを導入する。
提案手法は,分子点雲エンコーダを用いて,簡潔かつ順序不変な構造表現を行う。
本稿では,空間分子構造データセットから知識を抽出するための,分子点雲のための新しい事前学習手法を提案する。
単一タスクとマルチタスクの両方のフレームワークで微調整した後、nach0-pcは複数の確立された空間分子生成タスクで生成されたサンプルの品質の観点から、他の拡散モデルに匹敵する性能を示す。
特に、我々のモデルは、単一のタスクに限定された拡散モデルとは対照的に、マルチタスクアプローチである。
さらに、メモリ制限のために言語モデルが処理できないポイントクラウド関連データを処理できる。
これらのことは、トレーニングと推論時間を短縮し、パーパフォーマンスを維持しながら、私たちのモデルにつながります。
関連論文リスト
- DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
DiffMSは式制限エンコーダ-デコーダ生成ネットワークである。
我々は、潜伏埋め込みと分子構造を橋渡しする頑健なデコーダを開発する。
実験の結果、DiffMS は $textitde novo$ 分子生成で既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Exploring Discrete Flow Matching for 3D De Novo Molecule Generation [0.0]
フローマッチングは、最近提案されたジェネレーティブモデリングフレームワークで、様々なタスクにおいて印象的なパフォーマンスを実現している。
本稿では,既存の手法よりも学習可能なパラメータが少ない3D de novo設計における技術性能の状態を達成した,オープンソースのFlowMol-CTMCを提案する。
論文 参考訳(メタデータ) (2024-11-25T18:27:39Z) - Generative Modeling of Molecular Dynamics Trajectories [12.255021091552441]
データからMDの柔軟なマルチタスクサロゲートモデルを学ぶためのパラダイムとして,分子軌道の生成モデルを提案する。
このような生成モデルは,前方シミュレーションや遷移経路サンプリング,軌道上アップサンプリングといった多様なタスクに適応可能であることを示す。
論文 参考訳(メタデータ) (2024-09-26T13:02:28Z) - Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design [0.0]
本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。
本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T11:37:19Z) - LDMol: Text-to-Molecule Diffusion Model with Structurally Informative Latent Space [55.5427001668863]
テキスト条件付き分子生成のための遅延拡散モデル LDMol を提案する。
LDMolは、学習可能で構造的に有意な特徴空間を生成する分子オートエンコーダを含む。
我々は,LDMolを分子間検索やテキスト誘導分子編集などの下流タスクに適用できることを示す。
論文 参考訳(メタデータ) (2024-05-28T04:59:13Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - Generation of 3D Molecules in Pockets via Language Model [0.0]
逐次線記法(SMILES)やグラフ表現に基づく分子の生成モデルは、構造に基づく薬物設計の分野への関心が高まっている。
本稿では,言語モデルと幾何学的深層学習技術を組み合わせたポケットベースの3次元分子生成手法であるLingo3DMolを紹介する。
論文 参考訳(メタデータ) (2023-05-17T11:31:06Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Characterizing the Latent Space of Molecular Deep Generative Models with
Persistent Homology Metrics [21.95240820041655]
変分オート(VAE)は、エンコーダとデコーダのネットワークペアをトレーニングデータ分散の再構築のために訓練する生成モデルである。
本研究では, 深部生成モデルの潜伏空間が, 構造的および化学的特徴をエンコードできるかどうかを計測する手法を提案する。
論文 参考訳(メタデータ) (2020-10-18T13:33:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。