論文の概要: AtomDisc: An Atom-level Tokenizer that Boosts Molecular LLMs and Reveals Structure--Property Associations
- arxiv url: http://arxiv.org/abs/2512.03080v1
- Date: Fri, 28 Nov 2025 02:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:54.945584
- Title: AtomDisc: An Atom-level Tokenizer that Boosts Molecular LLMs and Reveals Structure--Property Associations
- Title(参考訳): AtomDisc: 分子LLMを強化し、構造を解明するAtomレベルのトケナイザ
- Authors: Mingxu Zhang, Dazhong Shen, Ying Sun,
- Abstract要約: AtomDiscは、原子レベルのローカル環境を大規模言語モデルに埋め込まれた構造対応トークンに定量化するフレームワークです。
実験の結果、AtomDiscは、データ駆動方式で、構造-プロパティ関連を示す化学的に意味のある構造的特徴を識別できることがわかった。
- 参考スコア(独自算出の注目度): 11.856011146903889
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Advances in large language models (LLMs) are accelerating discovery in molecular science. However, adapting molecular information to the serialized, token-based processing of LLMs remains a key challenge. Compared to other representations, molecular graphs explicitly encode atomic connectivity and local topological environments, which are key determinants of atomic behavior and molecular properties. Despite recent efforts to tokenize overall molecular topology, there still lacks effective fine-grained tokenization of local atomic environments, which are critical for determining sophisticated chemical properties and reactivity. To address these issues, we introduce AtomDisc, a novel framework that quantizes atom-level local environments into structure-aware tokens embedded directly in LLM's token space. Our experiments show that AtomDisc, in a data-driven way, can distinguish chemically meaningful structural features that reveal structure-property associations. Equipping LLMs with AtomDisc tokens injects an interpretable inductive bias that delivers state-of-the-art performance on property prediction and molecular generation. Our methodology and findings can pave the way for constructing more powerful molecular LLMs aimed at mechanistic insight and complex chemical reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、分子科学における発見を加速させている。
しかし、LCMのシリアライズされたトークンベースの処理に分子情報を適用することは重要な課題である。
他の表現と比較すると、分子グラフは原子の結合と局所的なトポロジカル環境を明示的にエンコードしている。
分子トポロジー全体をトークン化する最近の試みにもかかわらず、局所的な原子環境の効果的なきめ細かいトークン化はいまだに欠けている。
これらの問題に対処するために、私たちは、原子レベルのローカル環境をLLMのトークン空間に直接埋め込まれた構造対応トークンに定量化する新しいフレームワークAtomDiscを紹介します。
実験の結果、AtomDiscは、データ駆動方式で、構造-プロパティ関連を示す化学的に意味のある構造的特徴を識別できることがわかった。
AtomDiscトークンによるLCMの取得は、解釈可能な誘導バイアスを注入し、プロパティ予測と分子生成に最先端のパフォーマンスを提供する。
我々の方法論と知見は、力学的な洞察と複雑な化学的推論を目的とした、より強力な分子LLMを構築するための道を開くことができる。
関連論文リスト
- Mamba-driven multi-perspective structural understanding for molecular ground-state conformation prediction [69.32436472760712]
本稿では,マンバ駆動型多面的構造理解(MPSU-Mamba)による分子基底状態の局在化手法を提案する。
複雑で多様な分子に対しては、対応する分子構造の包括的認識を構築するために、3種類の専用の走査戦略が検討されている。
QM9 と Molecule3D データセットの実験結果から,MPSU-Mamba が既存の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-11-10T11:18:32Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Learning Hierarchical Interaction for Accurate Molecular Property Prediction [8.488251667425887]
Hierarchical Interaction Message Net (HimNet)は、ADMETプロファイルを予測するための新しいディープラーニングモデルである。
HimNetは、ほとんどの分子特性予測タスクにおいて、最高の、または最も近いパフォーマンスを達成する。
HimNetは、分子活性とADMET特性予測のための正確で効率的なソリューションであると考えています。
論文 参考訳(メタデータ) (2025-04-28T15:19:28Z) - Mol-LLaMA: Towards General Understanding of Molecules in Large Molecular Language Model [52.84455878597969]
Mol-LLaMAは、分子を中心とした一般的な知識を把握した大きな分子言語モデルである。
分子理解を改善するために,分子エンコーダの相補的な情報を統合するモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-19T05:49:10Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しいモデルである。
我々は、13のタスクのうち11のタスクで最先端のパフォーマンスを達成するMoleculeNetデータセット上で、FARMを評価した。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation [10.025809630976065]
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
提案手法は,種々の分子特性ベンチマークにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - Do Large Scale Molecular Language Representations Capture Important
Structural Information? [31.76876206167457]
本稿では,MoLFormerと呼ばれる効率的なトランスフォーマーエンコーダモデルのトレーニングにより得られた分子埋め込みについて述べる。
実験の結果,グラフベースおよび指紋ベースによる教師付き学習ベースラインと比較して,学習された分子表現が競合的に機能することが確認された。
論文 参考訳(メタデータ) (2021-06-17T14:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。