論文の概要: Improving Chemical Understanding of LLMs via SMILES Parsing
- arxiv url: http://arxiv.org/abs/2505.16340v1
- Date: Thu, 22 May 2025 07:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.130656
- Title: Improving Chemical Understanding of LLMs via SMILES Parsing
- Title(参考訳): SMILES解析によるLCMの化学的理解の改善
- Authors: Yunhui Jang, Jaehyung Kim, Sungsoo Ahn,
- Abstract要約: CLEANMOLは、SMILES解析をクリーンで決定論的タスクのスイートに定式化する新しいフレームワークである。
適応的難易度スコアリングを伴う分子事前学習データセットを構築し,これらの課題に対してオープンソースのLCMを事前学習する。
以上の結果から,CLEANMOLは構造的理解を高めるだけでなく,Moll-Instructionsベンチマークのベースラインと競合する。
- 参考スコア(独自算出の注目度): 18.532188836688928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly recognized as powerful tools for scientific discovery, particularly in molecular science. A fundamental requirement for these models is the ability to accurately understand molecular structures, commonly encoded in the SMILES representation. However, current LLMs struggle to interpret SMILES, even failing to carry out basic tasks such as counting molecular rings. To address this limitation, we introduce CLEANMOL, a novel framework that formulates SMILES parsing into a suite of clean and deterministic tasks explicitly designed to promote graph-level molecular comprehension. These tasks span from subgraph matching to global graph matching, providing structured supervision aligned with molecular structural properties. We construct a molecular pretraining dataset with adaptive difficulty scoring and pre-train open-source LLMs on these tasks. Our results show that CLEANMOL not only enhances structural comprehension but also achieves the best or competes with the baseline on the Mol-Instructions benchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に分子科学において、科学的発見のための強力なツールとして認識されつつある。
これらのモデルの基本的要件は、SMILES表現で一般的に符号化される分子構造を正確に理解する能力である。
しかし、現在のLLMはSMILESの解釈に苦慮しており、分子環の数え上げのような基本的なタスクも実行できなかった。
この制限に対処するために,グラフレベルの分子理解を促進するために明示的に設計されたクリーンで決定論的タスク群にSMILES解析を定式化する新しいフレームワークであるCLEANMOLを紹介した。
これらのタスクは、サブグラフマッチングからグローバルグラフマッチングまで、分子構造特性に整合した構造化された監視を提供する。
適応的難易度スコアリングを伴う分子事前学習データセットを構築し,これらの課題に対してオープンソースのLCMを事前学習する。
以上の結果から,CLEANMOLは構造的理解を高めるだけでなく,Moll-Instructionsベンチマークのベースラインと競合する。
関連論文リスト
- Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [55.87790704067848]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。
分子理解を改善するために,分子エンコーダの相補的な情報を統合するモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-19T05:49:10Z) - Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - MolCPT: Molecule Continuous Prompt Tuning to Generalize Molecular
Representation Learning [77.31492888819935]
分子表現学習のための「プリトレイン,プロンプト,ファインチューン」という新しいパラダイム,分子連続プロンプトチューニング(MolCPT)を提案する。
MolCPTは、事前訓練されたモデルを使用して、スタンドアロンの入力を表現的なプロンプトに投影するモチーフプロンプト関数を定義する。
いくつかのベンチマークデータセットの実験により、MollCPTは分子特性予測のために学習済みのGNNを効率的に一般化することが示された。
論文 参考訳(メタデータ) (2022-12-20T19:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。