論文の概要: AtomDisc: An Atom-level Tokenizer that Boosts Molecular LLMs and Reveals Structure--Property Associations
- arxiv url: http://arxiv.org/abs/2512.03080v1
- Date: Fri, 28 Nov 2025 02:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:54.945584
- Title: AtomDisc: An Atom-level Tokenizer that Boosts Molecular LLMs and Reveals Structure--Property Associations
- Title(参考訳): AtomDisc: 分子LLMを強化し、構造を解明するAtomレベルのトケナイザ
- Authors: Mingxu Zhang, Dazhong Shen, Ying Sun,
- Abstract要約: AtomDiscは、原子レベルのローカル環境を大規模言語モデルに埋め込まれた構造対応トークンに定量化するフレームワークです。
実験の結果、AtomDiscは、データ駆動方式で、構造-プロパティ関連を示す化学的に意味のある構造的特徴を識別できることがわかった。
- 参考スコア(独自算出の注目度): 11.856011146903889
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advances in large language models (LLMs) are accelerating discovery in molecular science. However, adapting molecular information to the serialized, token-based processing of LLMs remains a key challenge. Compared to other representations, molecular graphs explicitly encode atomic connectivity and local topological environments, which are key determinants of atomic behavior and molecular properties. Despite recent efforts to tokenize overall molecular topology, there still lacks effective fine-grained tokenization of local atomic environments, which are critical for determining sophisticated chemical properties and reactivity. To address these issues, we introduce AtomDisc, a novel framework that quantizes atom-level local environments into structure-aware tokens embedded directly in LLM's token space. Our experiments show that AtomDisc, in a data-driven way, can distinguish chemically meaningful structural features that reveal structure-property associations. Equipping LLMs with AtomDisc tokens injects an interpretable inductive bias that delivers state-of-the-art performance on property prediction and molecular generation. Our methodology and findings can pave the way for constructing more powerful molecular LLMs aimed at mechanistic insight and complex chemical reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、分子科学における発見を加速させている。
しかし、LCMのシリアライズされたトークンベースの処理に分子情報を適用することは重要な課題である。
他の表現と比較すると、分子グラフは原子の結合と局所的なトポロジカル環境を明示的にエンコードしている。
分子トポロジー全体をトークン化する最近の試みにもかかわらず、局所的な原子環境の効果的なきめ細かいトークン化はいまだに欠けている。
これらの問題に対処するために、私たちは、原子レベルのローカル環境をLLMのトークン空間に直接埋め込まれた構造対応トークンに定量化する新しいフレームワークAtomDiscを紹介します。
実験の結果、AtomDiscは、データ駆動方式で、構造-プロパティ関連を示す化学的に意味のある構造的特徴を識別できることがわかった。
AtomDiscトークンによるLCMの取得は、解釈可能な誘導バイアスを注入し、プロパティ予測と分子生成に最先端のパフォーマンスを提供する。
我々の方法論と知見は、力学的な洞察と複雑な化学的推論を目的とした、より強力な分子LLMを構築するための道を開くことができる。
関連論文リスト
- MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs [8.534690300929343]
分子の性質の推論には 分子グラフを解析し 理解する能力が必要です
大規模言語モデル(LLM)は、化学、分子名変換、キャプション、テキスト誘導生成、特性や反応予測といったタスクにますます応用されている。
我々は,分子構造推論ベンチマークである分子IQを紹介した。
論文 参考訳(メタデータ) (2026-01-21T18:58:01Z) - How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - Mamba-driven multi-perspective structural understanding for molecular ground-state conformation prediction [69.32436472760712]
本稿では,マンバ駆動型多面的構造理解(MPSU-Mamba)による分子基底状態の局在化手法を提案する。
複雑で多様な分子に対しては、対応する分子構造の包括的認識を構築するために、3種類の専用の走査戦略が検討されている。
QM9 と Molecule3D データセットの実験結果から,MPSU-Mamba が既存の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-11-10T11:18:32Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Learning Hierarchical Interaction for Accurate Molecular Property Prediction [8.488251667425887]
Hierarchical Interaction Message Net (HimNet)は、ADMETプロファイルを予測するための新しいディープラーニングモデルである。
HimNetは、ほとんどの分子特性予測タスクにおいて、最高の、または最も近いパフォーマンスを達成する。
HimNetは、分子活性とADMET特性予測のための正確で効率的なソリューションであると考えています。
論文 参考訳(メタデータ) (2025-04-28T15:19:28Z) - Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [52.84455878597969]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。
分子理解を改善するために,分子エンコーダの相補的な情報を統合するモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-19T05:49:10Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しいモデルである。
我々は、13のタスクのうち11のタスクで最先端のパフォーマンスを達成するMoleculeNetデータセット上で、FARMを評価した。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation [10.025809630976065]
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
提案手法は,種々の分子特性ベンチマークにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z) - Knowledge-aware Contrastive Molecular Graph Learning [5.08771973600915]
自己監督型分子表現学習のためのコントラシブナレッジアウェアGNN(CKGNN)を提案する。
私たちは、コントラスト学習フレームワークの下で知識認識分子エンコーダを介してドメイン知識を明示的にエンコードします。
8つの公開データセットの実験は、平均で6%の絶対的な改善と私たちのモデルの有効性を示しています。
論文 参考訳(メタデータ) (2021-03-24T08:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。