論文の概要: Training Text-to-Molecule Models with Context-Aware Tokenization
- arxiv url: http://arxiv.org/abs/2509.04476v1
- Date: Sat, 30 Aug 2025 07:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.313598
- Title: Training Text-to-Molecule Models with Context-Aware Tokenization
- Title(参考訳): 文脈認識トークン化を用いたテキスト・分子モデルの学習
- Authors: Seojin Kim, Hyeontae Song, Jaehyun Nam, Jinwoo Shin,
- Abstract要約: 我々は、文脈認識分子T5(CAMT5)という新しいテキスト・分子モデルを提案する。
分子構造を理解する上でのサブストラクチャーレベルのコンテキストの重要性に着想を得て,テキストから分子モデルへのサブストラクチャーレベルのトークン化を導入する。
我々は、重要なサブ構造を優先し、CAMT5が分子意味をよりよく捉えられるように、重要度に基づくトレーニング戦略を開発する。
- 参考スコア(独自算出の注目度): 48.35188892892129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, text-to-molecule models have shown great potential across various chemical applications, e.g., drug-discovery. These models adapt language models to molecular data by representing molecules as sequences of atoms. However, they rely on atom-level tokenizations, which primarily focus on modeling local connectivity, thereby limiting the ability of models to capture the global structural context within molecules. To tackle this issue, we propose a novel text-to-molecule model, coined Context-Aware Molecular T5 (CAMT5). Inspired by the significance of the substructure-level contexts in understanding molecule structures, e.g., ring systems, we introduce substructure-level tokenization for text-to-molecule models. Building on our tokenization scheme, we develop an importance-based training strategy that prioritizes key substructures, enabling CAMT5 to better capture the molecular semantics. Extensive experiments verify the superiority of CAMT5 in various text-to-molecule generation tasks. Intriguingly, we find that CAMT5 outperforms the state-of-the-art methods using only 2% of training tokens. In addition, we propose a simple yet effective ensemble strategy that aggregates the outputs of text-to-molecule models to further boost the generation performance. Code is available at https://github.com/Songhyeontae/CAMT5.git.
- Abstract(参考訳): 近年、テキスト・ツー・分子モデルでは、薬物発見など、様々な化学応用において大きな可能性を示している。
これらのモデルは、分子を原子の配列として表現することで、言語モデルを分子データに適用する。
しかし、それらは主に局所的な接続をモデル化することに焦点を当てた原子レベルのトークン化に依存しており、それによってモデルが分子内のグローバルな構造的コンテキストを捉える能力を制限する。
そこで本研究では、コンテキスト認識分子T5(CAMT5)と呼ばれる新しいテキスト・分子モデルを提案する。
分子構造を理解する上でのサブストラクチャーレベルのコンテキストの重要性,例えばリングシステムに着想を得て,テキストから分子モデルへのサブストラクチャーレベルのトークン化を導入する。
トークン化方式に基づいて、重要なサブ構造を優先し、CAMT5により分子意味をよりよく把握できる重要度に基づくトレーニング戦略を開発する。
様々なテキストから分子生成タスクにおけるCAMT5の優位性を検証する。
興味深いことに、CAMT5はトレーニングトークンの2%しか使用せず、最先端の手法よりも優れています。
さらに,テキストから分子モデルへの出力を集約して生成性能をさらに向上する,シンプルで効果的なアンサンブル戦略を提案する。
コードはhttps://github.com/Songhyeontae/CAMT5.gitで入手できる。
関連論文リスト
- Entropy-Guided Dynamic Tokens for Graph-LLM Alignment in Molecular Understanding [13.814119721533508]
分子理解は、科学的発見のような進歩する領域の中心である。
既存のグラフ-LLMブリッジは、固定長の静的トークンでQ-Formerスタイルのコネクタを適応することが多い。
本稿では,エントロピー誘導型動的トークン変換器であるETT-Formerを紹介した。
論文 参考訳(メタデータ) (2026-02-02T19:56:21Z) - Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models [43.37148291436855]
分子関連タスクのための大規模言語モデルを改善するための2段階のフレームワークPEITを提案する。
最初のステップでは、PEIT-GENと呼ばれるモデルを事前訓練するために、テキスト記述、SMILES、生化学的特性をマルチモーダル入力として使用します。
2番目のステップでは、既存のオープンソースLCMを合成データで微調整し、PEIT-LLMは分子キャプション、テキストベースの分子生成、分子特性予測、新たに提案したマルチ制約分子生成タスクを処理できる。
論文 参考訳(メタデータ) (2024-12-24T01:48:07Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Tokenization for Molecular Foundation Models [0.0]
ケミカル特異的な19種を含む34種のトークン化剤を系統的に評価し,SMILES分子の表現に有意な差が認められた。
我々は、OpenSMILES仕様を網羅した2つの新しいトークンー、SmirkとSmirk-GPEを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:36:04Z) - Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design [0.0]
本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。
本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T11:37:19Z) - UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation [35.277927005912275]
トークン化アーキテクチャを採用した統一分子テキストLLMであるUniMoTを紹介する。
ベクトル量子化駆動型トークン化器は、分子を因果依存性を持つ分子トークンの配列に変換する。
UniMoTは、分子間テキストとテキスト間タスクの両方を実行するマルチモーダル・ジェネラリストとして登場した。
論文 参考訳(メタデータ) (2024-08-01T18:31:31Z) - Atomas: Hierarchical Alignment on Molecule-Text for Unified Molecule Understanding and Generation [42.08917809689811]
クロスモーダル表現学習は、分子表現の質を高めるための有望な方向として登場した。
SMILES文字列とテキストから表現を共同で学習する階層的分子表現学習フレームワークAtomasを提案する。
Atomasは11のデータセット上の12のタスクで優れたパフォーマンスを実現し、11のベースラインモデルを上回っている。
論文 参考訳(メタデータ) (2024-04-23T12:35:44Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - AdaMR: Adaptable Molecular Representation for Unified Pre-training Strategy [11.710702202071573]
分子調節性表現(AdaMR)と呼ばれる,小分子薬物の大規模均一事前学習戦略を提案する。
AdaMRは、分子正準化と呼ばれる事前訓練ジョブによって達成される粒度調整可能な分子エンコーディング戦略を利用する。
6つの分子特性予測タスクと2つの生成タスクに関する事前学習モデルを微調整し、8つのタスクのうち5つについてSOTA(State-of-the-art)の結果を得た。
論文 参考訳(メタデータ) (2023-12-28T10:53:17Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z) - Self-Supervised Graph Transformer on Large-Scale Molecular Data [73.3448373618865]
分子表現学習のための新しいフレームワークGROVERを提案する。
GROVERは、分子の豊富な構造的および意味的な情報を、巨大な未標識分子データから学習することができる。
分子表現学習において、最大のGNNであり、最大のトレーニングデータセットである、1000万個の未標識分子に1億のパラメータを持つGROVERを事前訓練します。
論文 参考訳(メタデータ) (2020-06-18T08:37:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。