論文の概要: Task-Specific Sparse Feature Masks for Molecular Toxicity Prediction with Chemical Language Models
- arxiv url: http://arxiv.org/abs/2512.11412v1
- Date: Fri, 12 Dec 2025 09:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.719003
- Title: Task-Specific Sparse Feature Masks for Molecular Toxicity Prediction with Chemical Language Models
- Title(参考訳): 化学言語モデルを用いた分子毒性予測のためのタスク特異的スパース特徴マスク
- Authors: Kwun Sy Lee, Jiawei Chen, Fuk Sheng Ford Chung, Tianyu Zhao, Zhenyuan Chen, Debby D. Wang,
- Abstract要約: 本稿では,精度と解釈可能性の両立を図るために,新しいマルチタスク学習(MTL)フレームワークを提案する。
我々のアーキテクチャは、共通化学言語モデルとタスク固有のアテンションモジュールを統合している。
これらのモジュールにL1のスパーシリティのペナルティを課すことにより、このフレームワークは個々の毒性エンドポイントに対して最小限の塩分分子フラグメントに焦点を絞ることに制約される。
- 参考スコア(独自算出の注目度): 5.563119267291969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable in silico molecular toxicity prediction is a cornerstone of modern drug discovery, offering a scalable alternative to experimental screening. However, the black-box nature of state-of-the-art models remains a significant barrier to adoption, as high-stakes safety decisions demand verifiable structural insights alongside predictive performance. To address this, we propose a novel multi-task learning (MTL) framework designed to jointly enhance accuracy and interpretability. Our architecture integrates a shared chemical language model with task-specific attention modules. By imposing an L1 sparsity penalty on these modules, the framework is constrained to focus on a minimal set of salient molecular fragments for each distinct toxicity endpoint. The resulting framework is trained end-to-end and is readily adaptable to various transformer-based backbones. Evaluated on the ClinTox, SIDER, and Tox21 benchmark datasets, our approach consistently outperforms both single-task and standard MTL baselines. Crucially, the sparse attention weights provide chemically intuitive visualizations that reveal the specific fragments influencing predictions, thereby enhancing insight into the model's decision-making process.
- Abstract(参考訳): ケイ素分子毒性予測の信頼性は、現代の薬物発見の基盤であり、実験的スクリーニングに代わるスケーラブルな代替手段を提供する。
しかしながら、最先端モデルにおけるブラックボックスの性質は、予測性能とともに構造的洞察を検証し、高い評価の安全判断が要求されるため、採用にとって大きな障壁となっている。
そこで本研究では,精度と解釈可能性の両立を図るために,新しいマルチタスク学習(MTL)フレームワークを提案する。
我々のアーキテクチャは、共通化学言語モデルとタスク固有のアテンションモジュールを統合している。
これらのモジュールにL1のスパーシリティのペナルティを課すことにより、このフレームワークは個々の毒性エンドポイントに対して最小限の塩分分子フラグメントに焦点を絞ることに制約される。
その結果生まれたフレームワークはエンドツーエンドでトレーニングされ、様々なトランスフォーマーベースのバックボーンに容易に適応できる。
ClinTox、SIDER、Tox21ベンチマークデータセットに基づいて評価し、我々のアプローチはシングルタスクベースラインと標準MTLベースラインの両方を一貫して上回る。
重要なことに、粗い注意重みは化学的に直感的な可視化を提供し、予測に影響を与える特定の断片を明らかにし、それによってモデルの意思決定プロセスに関する洞察を深める。
関連論文リスト
- Foundation Models for Discovery and Exploration in Chemical Space [57.97784111110166]
MISTは、大規模なラベルなしデータセットに基づいて訓練された分子基盤モデルのファミリーである。
我々は、これらのモデルが化学空間をまたいだ現実世界の問題を解決する能力を実証する。
論文 参考訳(メタデータ) (2025-10-20T17:56:01Z) - Reasoning-Enhanced Large Language Models for Molecular Property Prediction [19.593493317167646]
分子特性予測は、薬物発見と物質科学にとって不可欠である。
既存のアプローチは、限定的な解釈可能性、クロスタスクの一般化の貧弱、化学的推論能力の欠如に悩まされている。
分子特性予測に化学推論を組み込んだ多モーダル大言語モデルMPPReasonerを提案する。
論文 参考訳(メタデータ) (2025-10-11T15:05:45Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification? [19.700175505235876]
ToxiMolは、分子毒性の修復に焦点を当てた汎用マルチモーダル言語モデル(MLLM)のための最初のベンチマークタスクである。
11の一次課題と560の有毒な分子を包含し, 多様な機構と粒度にまたがる標準データセットを構築した。
論文 参考訳(メタデータ) (2025-06-12T17:25:53Z) - Tokenization for Molecular Foundation Models [0.0]
ケミカル特異的な19種を含む34種のトークン化剤を系統的に評価し,SMILES分子の表現に有意な差が認められた。
我々は、OpenSMILES仕様を網羅した2つの新しいトークンー、SmirkとSmirk-GPEを提案する。
論文 参考訳(メタデータ) (2024-09-19T02:36:04Z) - Holistic chemical evaluation reveals pitfalls in reaction prediction
models [0.3065062372337749]
本稿では, より総合的な評価をめざして, 現状のアプローチに基づく新たな評価手法を提案する。
ChoRISOは、化学的に関連するシナリオを再現するために、複数の調整された分割と共に、キュレートされたデータセットである。
私たちの研究は、最終的に化学発見を加速できる堅牢な予測モデルへの道を開いた。
論文 参考訳(メタデータ) (2023-12-14T14:54:28Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Deep Learning for Virtual Screening: Five Reasons to Use ROC Cost
Functions [80.12620331438052]
深層学習は サイリコの何十億もの分子を 迅速にスクリーニングする 重要なツールとなりました
その重要性にもかかわらず、厳密なクラス不均衡、高い決定しきい値、いくつかのデータセットにおける基底真理ラベルの欠如など、これらのモデルのトレーニングにおいて重大な課題が続いている。
このような場合、クラス不均衡に対するロバスト性から、レシーバ動作特性(ROC)を直接最適化することを好んで論じる。
論文 参考訳(メタデータ) (2020-06-25T08:46:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。