論文の概要: Training Text-to-Molecule Models with Context-Aware Tokenization
- arxiv url: http://arxiv.org/abs/2509.04476v1
- Date: Sat, 30 Aug 2025 07:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.313598
- Title: Training Text-to-Molecule Models with Context-Aware Tokenization
- Title(参考訳): 文脈認識トークン化を用いたテキスト・分子モデルの学習
- Authors: Seojin Kim, Hyeontae Song, Jaehyun Nam, Jinwoo Shin,
- Abstract要約: 我々は、文脈認識分子T5(CAMT5)という新しいテキスト・分子モデルを提案する。
分子構造を理解する上でのサブストラクチャーレベルのコンテキストの重要性に着想を得て,テキストから分子モデルへのサブストラクチャーレベルのトークン化を導入する。
我々は、重要なサブ構造を優先し、CAMT5が分子意味をよりよく捉えられるように、重要度に基づくトレーニング戦略を開発する。
- 参考スコア(独自算出の注目度): 48.35188892892129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, text-to-molecule models have shown great potential across various chemical applications, e.g., drug-discovery. These models adapt language models to molecular data by representing molecules as sequences of atoms. However, they rely on atom-level tokenizations, which primarily focus on modeling local connectivity, thereby limiting the ability of models to capture the global structural context within molecules. To tackle this issue, we propose a novel text-to-molecule model, coined Context-Aware Molecular T5 (CAMT5). Inspired by the significance of the substructure-level contexts in understanding molecule structures, e.g., ring systems, we introduce substructure-level tokenization for text-to-molecule models. Building on our tokenization scheme, we develop an importance-based training strategy that prioritizes key substructures, enabling CAMT5 to better capture the molecular semantics. Extensive experiments verify the superiority of CAMT5 in various text-to-molecule generation tasks. Intriguingly, we find that CAMT5 outperforms the state-of-the-art methods using only 2% of training tokens. In addition, we propose a simple yet effective ensemble strategy that aggregates the outputs of text-to-molecule models to further boost the generation performance. Code is available at https://github.com/Songhyeontae/CAMT5.git.
- Abstract(参考訳): 近年、テキスト・ツー・分子モデルでは、薬物発見など、様々な化学応用において大きな可能性を示している。
これらのモデルは、分子を原子の配列として表現することで、言語モデルを分子データに適用する。
しかし、それらは主に局所的な接続をモデル化することに焦点を当てた原子レベルのトークン化に依存しており、それによってモデルが分子内のグローバルな構造的コンテキストを捉える能力を制限する。
そこで本研究では、コンテキスト認識分子T5(CAMT5)と呼ばれる新しいテキスト・分子モデルを提案する。
分子構造を理解する上でのサブストラクチャーレベルのコンテキストの重要性,例えばリングシステムに着想を得て,テキストから分子モデルへのサブストラクチャーレベルのトークン化を導入する。
トークン化方式に基づいて、重要なサブ構造を優先し、CAMT5により分子意味をよりよく把握できる重要度に基づくトレーニング戦略を開発する。
様々なテキストから分子生成タスクにおけるCAMT5の優位性を検証する。
興味深いことに、CAMT5はトレーニングトークンの2%しか使用せず、最先端の手法よりも優れています。
さらに,テキストから分子モデルへの出力を集約して生成性能をさらに向上する,シンプルで効果的なアンサンブル戦略を提案する。
コードはhttps://github.com/Songhyeontae/CAMT5.gitで入手できる。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Tokenization for Molecular Foundation Models [0.0]
ケミカル特異的な19種を含む34種のトークン化剤を系統的に評価し,SMILES分子の表現に有意な差が認められた。
我々は、OpenSMILES仕様を網羅した2つの新しいトークンー、SmirkとSmirk-GPEを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:36:04Z) - Crossing New Frontiers: Knowledge-Augmented Large Language Model Prompting for Zero-Shot Text-Based De Novo Molecule Design [0.0]
本研究は,ゼロショットテキスト条件デノボ分子生成タスクにおいて,大規模言語モデル(LLM)の知識増進プロンプトの利用について検討する。
本フレームワークは,ベンチマークデータセット上でのSOTA(State-of-the-art)ベースラインモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-18T11:37:19Z) - UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation [35.277927005912275]
トークン化アーキテクチャを採用した統一分子テキストLLMであるUniMoTを紹介する。
ベクトル量子化駆動型トークン化器は、分子を因果依存性を持つ分子トークンの配列に変換する。
UniMoTは、分子間テキストとテキスト間タスクの両方を実行するマルチモーダル・ジェネラリストとして登場した。
論文 参考訳(メタデータ) (2024-08-01T18:31:31Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - AdaMR: Adaptable Molecular Representation for Unified Pre-training Strategy [11.710702202071573]
分子調節性表現(AdaMR)と呼ばれる,小分子薬物の大規模均一事前学習戦略を提案する。
AdaMRは、分子正準化と呼ばれる事前訓練ジョブによって達成される粒度調整可能な分子エンコーディング戦略を利用する。
6つの分子特性予測タスクと2つの生成タスクに関する事前学習モデルを微調整し、8つのタスクのうち5つについてSOTA(State-of-the-art)の結果を得た。
論文 参考訳(メタデータ) (2023-12-28T10:53:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。