論文の概要: SMolLM: Small Language Models Learn Small Molecular Grammar
- arxiv url: http://arxiv.org/abs/2605.06322v1
- Date: Thu, 07 May 2026 14:21:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.88793
- Title: SMolLM: Small Language Models Learn Small Molecular Grammar
- Title(参考訳): SMolLM:小さな言語モデルで小さな分子文法を学ぶ
- Authors: Akhil Jindal, Harang Ju,
- Abstract要約: 我々は、ZINC-250K薬物様分子ベンチマークにおいて、95%の妥当性で新しいSMILESを生成するためにSMolLMを訓練する。
機械的には、同じブロックが一定順序でパスにまたがるSMILESの制約を解消する。
これらの結果はコンパクトで機械的に解釈可能な分子生成物をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models for molecular design have scaled to hundreds of millions of parameters, yet how they learn chemical grammar is poorly understood. We train SMolLM, a 53K-parameter weight-shared transformer, to generate novel SMILES with 95% validity on the ZINC-250K drug-like-molecule benchmark, outperforming a standard GPT with 10 times more parameters. Mechanistically, the same block resolves SMILES constraints across passes in a fixed order: brackets first, rings second, and valence last, as shown by error classification, linear probing, and sparse autoencoders. A systematic ablation across attention heads and passes further localizes the first bracket-matching step to a single attention head. Together, these results yield a compact, mechanistically interpretable molecular generator and a testbed for studying iterative computation in formal-language domains.
- Abstract(参考訳): 分子設計のための言語モデルは数億のパラメータに拡張されているが、化学文法の学習方法はあまり理解されていない。
ZINC-250K 薬物様分子ベンチマークにおいて,新しい SMILES を生成するために,53K パラメータのウェイトシェードトランスフォーマである SMolLM をトレーニングし,標準 GPT を10倍のパラメータで比較した。
機械的には、同じブロックは、ミス分類、線形プローブ、スパースオートエンコーダで示されるように、ブラケット1、リング2、バレンス3という、パス間のSMILES制約を一定の順序で解決する。
注意頭と通過する体系的アブレーションは、最初のブラケットマッチングステップを単一の注意頭にさらに局所化する。
これらの結果とともに、コンパクトで機械的に解釈可能な分子生成器と、形式言語領域における反復計算を研究するためのテストベッドが得られる。
関連論文リスト
- Breaking the Modality Barrier: Generative Modeling for Accurate Molecule Retrieval from Mass Spectra [60.08608779794957]
本稿では,ジェネレーティブ言語モデルに基づく検索フレームワークであるGLMRを提案する。
検索前の段階では、比較学習に基づくモデルでは、上位候補分子を入力質量スペクトルの文脈的先行として識別する。
生成検索段階において、これらの候補分子は入力質量スペクトルと統合され、精製された分子構造を生成するための生成モデルが導かれる。
論文 参考訳(メタデータ) (2025-11-09T07:25:53Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Tokenization for Molecular Foundation Models [0.0]
ケミカル特異的な19種を含む34種のトークン化剤を系統的に評価し,SMILES分子の表現に有意な差が認められた。
我々は、OpenSMILES仕様を網羅した2つの新しいトークンー、SmirkとSmirk-GPEを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:36:04Z) - A Large Encoder-Decoder Family of Foundation Models For Chemical Language [1.1073864511426255]
本稿では,PubChemから得られた9100万個のSMILESサンプルを事前学習した大規模エンコーダ・デコーダ化学基礎モデルを提案する。
複数のベンチマークデータセットにまたがる実験は、様々なタスクに対して最先端の結果を提供する際に提案したモデルのキャパシティを検証する。
論文 参考訳(メタデータ) (2024-07-24T20:30:39Z) - MolX: Enhancing Large Language Models for Molecular Understanding With A Multi-Modal Extension [44.97089022713424]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は, 分子の理解能力を高めるために, MolX と呼ばれるマルチモーダル外部モジュールを組み込むことにより, LLM の分子理解能力を高めることを目的とする。
手作りの分子指紋は、その埋め込みドメイン知識を活用するために組み込まれている。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。