論文の概要: A Foundation Chemical Language Model for Comprehensive Fragment-Based Drug Discovery
- arxiv url: http://arxiv.org/abs/2509.19586v1
- Date: Tue, 23 Sep 2025 21:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.609129
- Title: A Foundation Chemical Language Model for Comprehensive Fragment-Based Drug Discovery
- Title(参考訳): 包括的フラグメントに基づく薬物発見のための基礎的化学言語モデル
- Authors: Alexander Ho, Sukyeong Lee, Francis T. F. Tsai,
- Abstract要約: FragAtlas-62Mは、これまでで最大のフラグメントデータセットに基づいて訓練された、特別な基礎モデルである。
完全なZINC-22フラグメントサブセット上に構築され、フラグメント化学空間を前例のない範囲でカバーしている。
GPT-2モデル(42.7Mパラメータ)は99.90%の化学的に有効なフラグメントを生成する。
- 参考スコア(独自算出の注目度): 41.99844472131922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FragAtlas-62M, a specialized foundation model trained on the largest fragment dataset to date. Built on the complete ZINC-22 fragment subset comprising over 62 million molecules, it achieves unprecedented coverage of fragment chemical space. Our GPT-2 based model (42.7M parameters) generates 99.90% chemically valid fragments. Validation across 12 descriptors and three fingerprint methods shows generated fragments closely match the training distribution (all effect sizes < 0.4). The model retains 53.6% of known ZINC fragments while producing 22% novel structures with practical relevance. We release FragAtlas-62M with training code, preprocessed data, documentation, and model weights to accelerate adoption.
- Abstract(参考訳): FragAtlas-62Mは、これまでで最大のフラグメントデータセットに基づいて訓練された、特別な基礎モデルである。
約6200万の分子からなる完全なZINC-22フラグメントサブセット上に構築され、破片の化学空間を前例のない範囲でカバーしている。
GPT-2モデル(42.7Mパラメータ)は99.90%の化学的に有効なフラグメントを生成する。
12のディスクリプタと3つのフィンガープリントメソッドの検証では、生成されたフラグメントがトレーニング分布と密接に一致している(すべての効果サイズ<0.4)。
このモデルは、既知のZINCフラグメントの53.6%を保持し、実用的な関連性を持つ22%の新しい構造を生み出している。
FragAtlas-62Mにはトレーニングコード、事前処理されたデータ、ドキュメント、モデルの重み付けがあり、採用を加速しています。
関連論文リスト
- Pharmacology Knowledge Graphs: Do We Need Chemical Structure for Drug Repurposing? [0.0]
我々はChEMBL 36から,3,127薬,1,156タンパク質,1,065の表示を含む5,348のエンティティからなる薬理知識グラフを構築した。
我々は、5つの知識グラフ埋め込みモデルと、344万のパラメータを持つ標準グラフニューラルネットワークをグラフアテンションエンコーダとESM-2タンパク質埋め込みを用いてベンチマークした。
グラフアテンションに基づく薬物構造エンコーダを除去し、ESM-2タンパク質と組み合わせたトポロジカル埋め込みのみを保持することで、ドラッグタンパク質PR-AUCを0.5631から0.5785に改善し、VRAMをGBから353MBに削減した。
論文 参考訳(メタデータ) (2026-03-02T07:07:32Z) - Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - Large Language Model Agent for Modular Task Execution in Drug Discovery [7.1616715247845955]
本稿では,大規模言語モデル(LLM)をベースとしたモジュール型フレームワークを提案する。
LLM推論とドメイン固有のツールを組み合わせることで、バイオメディカルデータ検索、ドメイン固有の質問応答、分子生成、特性予測、特性認識分子精製、および3Dタンパク質リガンド構造生成を行う。
論文 参考訳(メタデータ) (2025-06-26T00:19:01Z) - FragFM: Hierarchical Framework for Efficient Molecule Generation via Fragment-Level Discrete Flow Matching [3.0684068038799728]
分子グラフ生成のためのフラグメントレベル離散フローマッチングによる新しい階層型フレームワークであるFragFMを紹介する。
FragFMはフラグメントレベルで分子を生成し、原子レベルで詳細を再構築するために粗いオートエンコーダを利用する。
また,現代分子グラフ生成モデルの天然物様分子生成能力を評価するための天然物生成ベンチマークも提案する。
論文 参考訳(メタデータ) (2025-02-19T07:01:00Z) - BAPULM: Binding Affinity Prediction using Language Models [7.136205674624813]
本稿では,ProtT5-XL-U50およびMollFormerを介してタンパク質の化学潜伏表現を利用する,革新的な配列ベースフレームワークであるBAPULMを紹介する。
提案手法は,ベンチマーク1k2101, Test2016_290, CSAR-HiQ_36でそれぞれ0.925 $pm$0.043, 0.914 $pm$0.004, 0.8132 $pm$0.0001のシーケンシャルスコアリングパワー(R)値を達成した。
論文 参考訳(メタデータ) (2024-11-06T04:35:30Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - DecompDiff: Diffusion Models with Decomposed Priors for Structure-Based Drug Design [62.68420322996345]
既存の構造に基づく薬物設計法は、すべての配位子原子を等しく扱う。
腕と足場を分解した新しい拡散モデルDecompDiffを提案する。
提案手法は,高親和性分子の生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-26T05:21:21Z) - Drug Discovery with Dynamic Goal-aware Fragments [76.10700304803177]
GEAM (Goal-aware fragment extract, Assembly and Modification) という薬物発見のための分子生成フレームワークを提案する。
GEAMは3つのモジュールから構成されており、それぞれがゴール対応のフラグメント抽出、フラグメントアセンブリ、フラグメント修正を担当している。
GEAMは3つのモジュールの生成サイクルを通じて薬物候補を効果的に発見できることを実験的に実証した。
論文 参考訳(メタデータ) (2023-10-02T01:30:42Z) - Equivariant 3D-Conditional Diffusion Models for Molecular Linker Design [82.23006955069229]
分子リンカ設計のためのE(3)等価な3次元拡散モデルDiffLinkerを提案する。
我々のモデルは、欠落した原子を中間に配置し、初期フラグメントを全て組み込んだ分子を設計する。
DiffLinkerは、より多種多様な合成可能な分子を生成する標準データセット上で、他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T09:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。