論文の概要: Unveiling Latent Knowledge in Chemistry Language Models through Sparse Autoencoders
- arxiv url: http://arxiv.org/abs/2512.08077v1
- Date: Mon, 08 Dec 2025 22:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.740399
- Title: Unveiling Latent Knowledge in Chemistry Language Models through Sparse Autoencoders
- Title(参考訳): スパースオートエンコーダによる化学言語モデルにおける潜在知識の探索
- Authors: Jaron Cohen, Alexander G. Hasson, Sara Tanovic,
- Abstract要約: 我々はスパースオートエンコーダ技術を拡張して化学言語モデル内の解釈可能な特徴を明らかにし,検討する。
以上の結果から,これらのモデルが化学概念の豊かな風景をエンコードしていることが判明した。
我々のアプローチは、化学にフォーカスしたAIシステムにおける潜在知識を明らかにするための一般的なフレームワークを提供する。
- 参考スコア(独自算出の注目度): 42.033443425253644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the advent of machine learning, interpretability has remained a persistent challenge, becoming increasingly urgent as generative models support high-stakes applications in drug and material discovery. Recent advances in large language model (LLM) architectures have yielded chemistry language models (CLMs) with impressive capabilities in molecular property prediction and molecular generation. However, how these models internally represent chemical knowledge remains poorly understood. In this work, we extend sparse autoencoder techniques to uncover and examine interpretable features within CLMs. Applying our methodology to the Foundation Models for Materials (FM4M) SMI-TED chemistry foundation model, we extract semantically meaningful latent features and analyse their activation patterns across diverse molecular datasets. Our findings reveal that these models encode a rich landscape of chemical concepts. We identify correlations between specific latent features and distinct domains of chemical knowledge, including structural motifs, physicochemical properties, and pharmacological drug classes. Our approach provides a generalisable framework for uncovering latent knowledge in chemistry-focused AI systems. This work has implications for both foundational understanding and practical deployment; with the potential to accelerate computational chemistry research.
- Abstract(参考訳): 機械学習の登場以来、解釈性は永続的な課題であり続けており、生成モデルが薬品や物質発見の高度な応用をサポートするようになるにつれて、ますます緊急化が進んでいる。
大規模言語モデル(LLM)アーキテクチャの最近の進歩は、分子特性予測と分子生成に優れた能力を持つ化学言語モデル(CLM)を生み出している。
しかし、これらのモデルが化学知識をどう表すかはいまだに理解されていない。
本研究では, スパースオートエンコーダ技術を拡張して, CLM内の解釈可能な特徴を明らかにし, 検討する。
本手法をFM4M(Foundation Models for Materials)SMI-TEDケミカル基礎モデルに適用し、意味的に意味のある潜在特徴を抽出し、それらの活性化パターンを多様な分子データセットで分析する。
以上の結果から,これらのモデルが化学概念の豊かな風景をエンコードしていることが判明した。
本研究は, 構造モチーフ, 物理化学的特性, 薬理学的薬物クラスなど, 特定の潜伏特性と化学知識の異なる領域との相関関係を同定する。
我々のアプローチは、化学にフォーカスしたAIシステムにおける潜在知識を明らかにするための一般的なフレームワークを提供する。
この研究は基礎的な理解と実践的な展開の両方に影響を及ぼし、計算化学の研究を加速させる可能性がある。
関連論文リスト
- Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。
KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。
この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文 参考訳(メタデータ) (2025-02-17T11:53:58Z) - MolTRES: Improving Chemical Language Representation Learning for Molecular Property Prediction [14.353313239109337]
MolTRESは化学言語表現学習フレームワークである。
ジェネレータと識別器のトレーニングが組み込まれており、より難しい例からモデルを学習することができる。
我々のモデルは、一般的な分子特性予測タスクにおける既存の最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2024-07-09T01:14:28Z) - Multi-channel learning for integrating structural hierarchies into context-dependent molecular representation [10.025809630976065]
本稿では,より堅牢で一般化可能な化学知識を学習する,新しい事前学習フレームワークを提案する。
提案手法は,種々の分子特性ベンチマークにおける競合性能を示す。
論文 参考訳(メタデータ) (2023-11-05T23:47:52Z) - Unsupervised Learning of Molecular Embeddings for Enhanced Clustering
and Emergent Properties for Chemical Compounds [2.6803933204362336]
SMILESデータに基づく化合物の検出とクラスタリングのための様々な手法を提案する。
埋め込みデータを用いて化合物のグラフィカルな構造を解析し, しきい値を満たすためにベクトル探索を用いる。
また、GPT3.5を用いたベクトルデータベースに格納された自然言語記述埋め込みを用い、ベースモデルより優れていた。
論文 参考訳(メタデータ) (2023-10-25T18:00:24Z) - Structure to Property: Chemical Element Embeddings and a Deep Learning Approach for Accurate Prediction of Chemical Properties [0.0]
化学分類タスクのためのelEmBERTモデルを提案する。
これは多層エンコーダアーキテクチャのようなディープラーニング技術に基づいている。
我々は, 有機, 無機, 結晶化合物の集合に対して, アプローチがもたらす機会を実証する。
論文 参考訳(メタデータ) (2023-09-17T19:41:32Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。