論文の概要: MoleCode unlocks structural intelligence in large language models
- arxiv url: http://arxiv.org/abs/2605.16480v1
- Date: Fri, 15 May 2026 17:44:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.508865
- Title: MoleCode unlocks structural intelligence in large language models
- Title(参考訳): MoleCodeが大規模言語モデルで構造的インテリジェンスをアンロック
- Authors: Zhiyuan Yan, Chen Liu, Boxuan Zhao, Kaiqing Lin, Jixiang Zhao, Yimi Wang, Liuzhenghao Lv, Hao Li, Shanzhuo Zhang, Li Yuan, Fanyang Mo,
- Abstract要約: MoleCodeは、LLMネイティブで、トレーニングなし、グラフ限定の分子言語である。
言語コンテキスト内で分子トポロジーを直接読みやすく、編集可能で、監査可能である。
また、推測の割り当て方法も変更され、暗黙の構造的再構築に費やされた長い推論の痕跡が置き換えられる。
- 参考スコア(独自算出の注目度): 22.076506020790106
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Molecules are graphs, but large language models~(LLMs) are usually asked to reason about them through linear strings. The most popular molecular representation, SMILES, compresses atoms, bonds, branches and rings into a compact sequence in which topology is implicit, forcing LLMs to reconstruct molecular structure before performing the requested chemical operation. Here we introduce MoleCode, an LLM-native, training-free, graph-explicit molecular language in which all molecular components are represented as typed entities with persistent identifiers and explicit relations. MoleCode makes molecular topology directly readable, editable and auditable within the language context, allowing an LLM to operate on structure rather than recover it from syntax. Across molecular reasoning, editing, generation and analysis tasks, this representational shift improves frontier LLMs most strongly when structural access is limiting: unfamiliar molecules, topology-sensitive operations, larger structures and repetitive polymers. It also changes how inference is allocated, replacing long reasoning traces devoted to implicit structural reconstruction with shorter, more chemically directed reasoning over explicit atoms and bonds. In molecular optimization, this enables localized, property-aligned edits that preserve structural similarity to the starting compounds. The same Subgraph--Node--Edge grammar extends beyond small molecules to polymers, Markush structures, mechanism-style transformations and interleaved scientific documents, including research articles and patent disclosures in which chemical information is distributed across text and images. These results suggest that the interface between scientific objects and LLMs should not treat structure as something to be decoded from text. When the object of reasoning is relational, the structure itself should be part of the language.
- Abstract(参考訳): 分子はグラフであるが、大きな言語モデル~(LLM)は通常、線形文字列を通してそれらを推論するよう要求される。
最も一般的な分子表現であるSMILESは、原子、結合、分岐、環をコンパクトな配列に圧縮し、トポロジーは暗黙的であり、LLMは要求された化学操作を行う前に分子構造を再構築せざるを得ない。
ここでは、全ての分子成分が永続的な識別子と明示的な関係を持つ型付きエンティティとして表現される、LLMネイティブ、トレーニング不要、グラフ指定の分子言語であるMoleCodeを紹介する。
MoleCodeは、言語コンテキスト内で分子トポロジーを直接読みやすく、編集可能で、監査可能である。
分子推論、編集、生成、解析のタスク全体にわたって、この表現シフトは、構造的アクセスが制限されているとき、不慣れな分子、トポロジーに敏感な操作、より大きな構造、反復的なポリマーといった、フロンティアLSMを最も強く改善する。
また、推測の割り当て方法も変更され、暗黙の構造的再構築に費やされる長い推論の痕跡を、明示的な原子や結合に対するより短く化学的に指示された推論に置き換える。
分子最適化において、これは開始化合物と構造的類似性を保った局所的で特性に整合した編集を可能にする。
同じサブグラフ-Node-Edge文法は、小さな分子からポリマー、マルコフ構造、メカニズムスタイルの変換、そして化学情報がテキストや画像に分散する研究論文や特許開示を含む、インターリーブされた科学文書まで拡張されている。
これらの結果は、科学オブジェクトとLLMのインターフェースは、構造をテキストから復号するものとして扱うべきではないことを示唆している。
推論の対象がリレーショナルである場合、構造自体が言語の一部であるべきです。
関連論文リスト
- How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - Bridging the Gap Between Molecule and Textual Descriptions via Substructure-aware Alignment [15.230372857449282]
MolBridgeは、サブ構造認識アライメントに基づく新しい分子文学習フレームワークである。
MolBridgeは,様々な分子ベンチマークにおいて,微細な対応を効果的に捉え,最先端のベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2025-10-30T05:36:31Z) - mCLM: A Modular Chemical Language Model that Generates Functional and Makeable Molecules [61.161776104062774]
本稿では,関数と分子ブロックの両方を自然言語で記述するモジュール型ケミカル・ランゲージモデルを提案する。
mCLMフロントロードは、分子の予測関数を原則的に改善しながら、合成可能性を考慮している。
論文 参考訳(メタデータ) (2025-05-18T22:52:39Z) - Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [52.84455878597969]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。
分子理解を改善するために,分子エンコーダの相補的な情報を統合するモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-19T05:49:10Z) - MolMetaLM: a Physicochemical Knowledge-Guided Molecular Meta Language Model [19.458584012046646]
本稿では,分子メタ言語フレームワーク MolMetaLM を提案する。
我々は、同じS(分子)を共有する複数のS,P,O>知識トリプルとしてフォーマットされた分子特化メタ言語パラダイムを設計する。
異なる分子知識とノイズを導入することで、メタ言語パラダイムは数万の事前学習タスクを生成する。
論文 参考訳(メタデータ) (2024-11-23T09:27:38Z) - UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation [35.277927005912275]
トークン化アーキテクチャを採用した統一分子テキストLLMであるUniMoTを紹介する。
ベクトル量子化駆動型トークン化器は、分子を因果依存性を持つ分子トークンの配列に変換する。
UniMoTは、分子間テキストとテキスト間タスクの両方を実行するマルチモーダル・ジェネラリストとして登場した。
論文 参考訳(メタデータ) (2024-08-01T18:31:31Z) - HIGHT: Hierarchical Graph Tokenization for Molecule-Language Alignment [41.75926736949724]
大規模言語モデル(LLM)の分子認識を改善するために,原子,モチーフ,分子レベルの情報トークンを符号化したグラフトークン化器を提案する。
実世界の14のベンチマーク実験では、幻覚の40%削減におけるHighTの有効性が検証され、様々な分子言語下流タスクにおいて顕著に改善された。
論文 参考訳(メタデータ) (2024-06-20T06:37:35Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Fragment-based Sequential Translation for Molecular Optimization [23.152338167332374]
本稿では,分子断片を用いた分子生成のためのフレキシブルな編集パラダイムを提案する。
我々は変分オートエンコーダを用いて分子断片をコヒーレント潜在空間に符号化する。
そして、分子を編集して複雑な化学特性空間を探索する語彙として利用します。
論文 参考訳(メタデータ) (2021-10-26T21:20:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。