論文の概要: ChemCLIP: Bridging Organic and Inorganic Anticancer Compounds Through Contrastive Learning
- arxiv url: http://arxiv.org/abs/2603.28575v1
- Date: Mon, 30 Mar 2026 15:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.479851
- Title: ChemCLIP: Bridging Organic and Inorganic Anticancer Compounds Through Contrastive Learning
- Title(参考訳): ChemCLIP: 比較学習による有機および無機系抗がん化合物の架橋
- Authors: Mohamad Koohi-Moghadam, Hongzhe Sun, Hongyan Li, Kyongtae Tyler Bae,
- Abstract要約: ChemCLIPはデュアルエンコーダのコントラスト学習フレームワークである。
ChemCLIPは、共有抗がん活性に基づいて統一表現を学習することで、有機-無機の分断を橋渡しする。
モーガン指紋は平均アライメント比0.899、下流分類AUCは0.859(無機)と0.817(有機)で優れていた。
- 参考スコア(独自算出の注目度): 1.8444872508429109
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The discovery of anticancer therapeutics has traditionally treated organic small molecules and metal-based coordination complexes as separate chemical domains, limiting knowledge transfer despite their shared biological objectives. This disparity is particularly pronounced in available data, with extensive screening databases for organic compounds compared to only a few thousand characterized metal complexes. Here, we introduce ChemCLIP, a dual-encoder contrastive learning framework that bridges this organic-inorganic divide by learning unified representations based on shared anticancer activities rather than structural similarity. We compiled complementary datasets comprising 44,854 unique organic compounds and 5,164 unique metal complexes, standardized across 60 cancer cell lines. By training parallel encoders with activity-aware hard negative mining, we mapped structurally distinct compounds into a shared 256-dimensional embedding space where biologically similar compounds cluster together regardless of chemical class. We systematically evaluated four molecular encoding strategies: Morgan fingerprints, ChemBERTa, MolFormer, and Chemprop, through quantitative alignment metrics, embedding visualizations, and downstream classification tasks. Morgan fingerprints achieved superior performance with an average alignment ratio of 0.899 and downstream classification AUCs of 0.859 (inorganic) and 0.817 (organic). This work establishes contrastive learning as an effective strategy for unifying disparate chemical domains and provides empirical guidance for encoder selection in multi-modal chemistry applications, with implications extending beyond anticancer drug discovery to any scenario requiring cross-domain chemical knowledge transfer.
- Abstract(参考訳): 抗がん剤の発見は、伝統的に有機小分子と金属系配位錯体を別個の化学ドメインとして扱い、共有された生物学的目的にもかかわらず知識伝達を制限する。
この相違は、利用可能なデータでは特に顕著であり、有機化合物の広範囲なスクリーニングデータベースは、わずか数千の特徴を持つ金属錯体と比較している。
ここでは, 構造的類似性ではなく, 共有抗がん活性に基づく統一表現を学習することにより, この有機-無機分断を橋渡しする, 二重エンコーダのコントラスト学習フレームワークであるChemCLIPを紹介する。
我々は,60のがん細胞株で標準化された44,854個の有機化合物と5,164個の金属錯体からなる相補的データセットをまとめた。
活性を意識した強陰性マイニングによる並列エンコーダの訓練により, 構造的に異なる化合物を, 化学的クラスに関係なく, 生物学的に類似した化合物が集束する共有256次元埋め込み空間にマッピングした。
モーガン指紋,ChemBERTa,MommFormer,Chempropの4つの分子エンコーディング戦略を定量的アライメント指標,埋め込み可視化,下流分類タスクを用いて体系的に評価した。
モーガン指紋は平均アライメント比0.899、下流分類AUCは0.859(無機)と0.817(有機)で優れた性能を示した。
この研究は、異なる化学ドメインを統一するための効果的な戦略として対照的な学習を確立し、マルチモーダル化学応用におけるエンコーダ選択のための実証的なガイダンスを提供する。
関連論文リスト
- ChemNavigator: Agentic AI Discovery of Design Rules for Organic Photocatalysts [0.0]
ChemNavigatorは、自律的に構造-プロパティ関係を導出するエージェントAIシステムである。
ケムナビゲーターは、フロンティア軌道エネルギーを管理する6つの統計的に重要な設計規則を自律的に特定した。
論文 参考訳(メタデータ) (2026-01-23T07:44:28Z) - Learning Cell-Aware Hierarchical Multi-Modal Representations for Robust Molecular Modeling [74.25438319700929]
分子と細胞応答の局所的グローバル依存性をモデル化する堅牢なフレームワークであるCHMR(Cell-aware Hierarchical Multi-modal Representations)を提案する。
728タスクにまたがる9つの公開ベンチマークで評価され、CHMRは最先端のベースラインを上回っている。
その結果, 階層認識型マルチモーダル学習による分子表現の信頼性, 生物学的基盤化の利点が示された。
論文 参考訳(メタデータ) (2025-11-26T07:15:00Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Chemical classification program synthesis using generative artificial intelligence [0.28991059698468286]
本研究では、生成人工知能を用いて、ChEBI(Chemical Entities of Biological Interest)データベース内のクラスのための化学分類プログラムを自動作成する手法を提案する。
C3PO(ChEBI Chemical Class Ontology)と呼ばれる化学クラス命名法について説明可能な存在論的モデルを構成するプログラムである。
論文 参考訳(メタデータ) (2025-05-24T02:21:33Z) - Neural CRNs: A Natural Implementation of Learning in Chemical Reaction Networks [0.0]
自律学習が可能な分子回路は、バイオエンジニアリングや合成生物学などの分野における新しい応用を解き放つ可能性がある。
本稿では,分子濃度の時間進化としてニューラル計算をモデル化する力学系に基づくアプローチを提案する。
本研究は, 合成生化学システムに学習行動を組み込むための有効な経路を提示する。
論文 参考訳(メタデータ) (2024-08-18T01:43:26Z) - A Gaussian Process Model for Ordinal Data with Applications to Chemoinformatics [0.0]
化学実験の結果を予測するための条件付きガウス過程モデルを提案する。
我々のモデルの新しい側面は、核がスケーリングパラメータを含み、化学空間の要素間の相関の強さを制御することである。
本稿では,化学発見の容易化と化合物の有効性に対する重要な特徴の同定のための遺伝的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-16T11:18:32Z) - ChemVise: Maximizing Out-of-Distribution Chemical Detection with the
Novel Application of Zero-Shot Learning [60.02503434201552]
本研究は,簡単な学習セットから複雑な露光の学習近似を提案する。
合成センサ応答に対するこのアプローチは, 分布外の化学分析物の検出を驚くほど改善することを示した。
論文 参考訳(メタデータ) (2023-02-09T20:19:57Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - The chemical space of terpenes: insights from data science and AI [0.30458514384586405]
テルペン(terpenes)は、化学的、生物学的に重要な多様性を持つ天然物の総称である。
私たちは、テルペンの多様性を特定し、コンパイルし、特徴付けるために、データサイエンスベースのアプローチを採用しています。
論文 参考訳(メタデータ) (2021-10-27T12:27:17Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。