Fugu-MT 論文翻訳(概要): Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models

論文の概要: Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models

arxiv url: http://arxiv.org/abs/2409.15370v2
Date: Fri, 07 Feb 2025 18:36:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-10 18:29:32.762374
Title: Smirk: An Atomically Complete Tokenizer for Molecular Foundation Models
Title（参考訳）: Smirk:分子基盤モデルのための原子的に完全なトケナイザ
Authors: Alexius Wadell, Anoushka Bhutani, Venkatasubramanian Viswanathan,
Abstract要約: 既存のモデルは、分子空間のごく一部しか捉えない閉語彙トークン化器によって制約される。我々は,n-gram言語モデルを低コストなプロキシとして導入し,分子特性予測のための18のRoBERTa型エンコーダの訓練と微調整により,それらの有効性を検証する。我々は、OpenSMILES仕様を網羅した2つの新しいトークンー、SmirkとSmirk-GPEを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-based foundation models have become an important part of scientific discovery, with molecular foundation models accelerating advancements in molecular design and materials science. However, existing models are constrained by closed-vocabulary tokenizers which capture only a fraction of molecular space. In this work, we systematically evaluate thirty tokenizers, including 19 chemistry-specific ones, for their coverage of the SMILES molecular representation language, revealing significant gaps. To assess the impact of tokenizer choice, we introduce n-gram language models as a low-cost proxy and validate their effectiveness by training and fine-tuning 18 RoBERTa-style encoders for molecular property prediction. To overcome the limitations of existing tokenizers, we propose two new tokenizers -- Smirk and Smirk-GPE -- with full coverage of the OpenSMILES specification. Our results highlight the need for open-vocabulary modeling and chemically diverse benchmarks in cheminformatics. The proposed tokenizer framework systematically integrates nuclear, electronic, and geometric degrees of freedom; this facilitates applications in pharmacology, agriculture, biology, and energy storage.
Abstract（参考訳）: テキストベースの基礎モデルは、分子設計と材料科学の進歩を加速させる分子基盤モデルによって、科学的な発見の重要な部分となっている。しかし、既存のモデルは分子空間のごく一部しか捉えない閉語彙トークン化器によって制限されている。本研究では、SMILES分子表現言語を網羅する上で、化学特異的な19種を含む30種のトークン化剤を体系的に評価し、大きなギャップを明らかにした。トークン化剤選択の影響を評価するため,n-gram言語モデルを低コストなプロキシとして導入し,分子特性予測のための18のRoBERTa型エンコーダの訓練および微調整による有効性を検証する。既存のトークンライザの制限を克服するため、OpenSMILES仕様を完全にカバーした2つの新しいトークンライザ、SmirkとSmirk-GPEを提案します。ケミノフォマティクスにおけるオープン語彙モデリングと化学的に多様なベンチマークの必要性を強調した。提案されたトークンーザフレームワークは、核、電子、幾何学的自由度を体系的に統合し、薬理学、農業、生物学、エネルギー貯蔵における応用を促進する。

関連論文リスト

Molecular Machine Learning Using Euler Characteristic Transforms [12.108680020079925]
分子の形状は、その物理化学的および生物学的性質を決定する。幾何学的トポロジカル記述子としてEuler Characteristics Transform (ECT)を提案する。 ECTは、マルチスケールの構造的特徴の抽出を可能にし、特徴空間における分子形状を表現およびエンコードする新しい方法を提供する。
論文参考訳（メタデータ） (2025-07-04T10:57:40Z)
MolProphecy: Bridging Medicinal Chemists' Knowledge and Molecular Pre-Trained Models via a Multi-Modal Framework [21.677162643535826]
MolProphecyは、化学者のドメイン知識を分子特性予測モデルに統合するためのフレームワークである。 ChatGPTは、専門家レベルの推論と意思決定をシミュレートする仮想化学者である。 MolProphecyは4つのベンチマークデータセットで、最先端(SOTA)モデルより優れています。
論文参考訳（メタデータ） (2025-06-26T12:51:59Z)
Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。 KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文参考訳（メタデータ） (2025-02-17T11:53:58Z)
GraphXForm: Graph transformer for computer-aided molecular design with application to extraction [73.1842164721868]
本稿では,デコーダのみのグラフトランスフォーマアーキテクチャであるGraphXFormについて述べる。液液抽出のための2つの溶媒設計課題について評価し,4つの最先端分子設計技術より優れていることを示した。
論文参考訳（メタデータ） (2024-11-03T19:45:15Z)
Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文参考訳（メタデータ） (2024-11-03T01:56:15Z)
Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design [0.0]
本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。
論文参考訳（メタデータ） (2024-08-18T11:37:19Z)
A Large Encoder-Decoder Family of Foundation Models For Chemical Language [1.1073864511426255]
本稿では,PubChemから得られた9100万個のSMILESサンプルを事前学習した大規模エンコーダ・デコーダ化学基礎モデルを提案する。複数のベンチマークデータセットにまたがる実験は、様々なタスクに対して最先端の結果を提供する際に提案したモデルのキャパシティを検証する。
論文参考訳（メタデータ） (2024-07-24T20:30:39Z)
Token-Mol 1.0: Tokenized drug design with large language model [10.258299488278514]
Token-Molはトークンのみの3Dドラッグデザインモデルで、2Dや3D構造を含む全ての分子情報をトークンにエンコードする。トランスデコーダアーキテクチャ上に構築され、ランダム因果マスキング技術を用いて訓練されている。既存の分子事前学習モデルと比較して、Token-Molはより幅広い下流タスクを扱うのに優れた習熟度を示す。
論文参考訳（メタデータ） (2024-07-10T07:22:15Z)
MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文参考訳（メタデータ） (2024-07-09T01:14:28Z)
Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。 TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文参考訳（メタデータ） (2024-03-20T02:15:55Z)
Multi-Modal Representation Learning for Molecular Property Prediction: Sequence, Graph, Geometry [6.049566024728809]
深層学習に基づく分子特性予測は、従来の手法の資源集約性に対する解決策として登場した。本稿では,分子特性予測のための新しいマルチモーダル表現学習モデルSGGRLを提案する。モダリティ間の整合性を確保するため、SGGRLは異なる分子の類似性を最小化しながら同じ分子の表現の類似性を最大化するように訓練される。
論文参考訳（メタデータ） (2024-01-07T02:18:00Z)
MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。両者の分子表現の強さを融合させる。ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文参考訳（メタデータ） (2023-11-28T10:28:35Z)
Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文参考訳（メタデータ） (2023-10-22T04:06:44Z)
Atomic and Subgraph-aware Bilateral Aggregation for Molecular Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。 ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文参考訳（メタデータ） (2023-05-22T00:56:00Z)
Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文参考訳（メタデータ） (2023-02-04T01:32:40Z)
MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。 MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文参考訳（メタデータ） (2022-12-20T19:32:30Z)
A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文参考訳（メタデータ） (2022-09-12T00:56:57Z)
Do Large Scale Molecular Language Representations Capture Important Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文参考訳（メタデータ） (2021-06-17T14:33:55Z)
Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文参考訳（メタデータ） (2020-11-14T05:42:15Z)
ASGN: An Active Semi-supervised Graph Neural Network for Molecular Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文参考訳（メタデータ） (2020-07-07T04:22:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。