論文の概要: Clever Hans in Chemistry: Chemist Style Signals Confound Activity Prediction on Public Benchmarks
- arxiv url: http://arxiv.org/abs/2512.20924v1
- Date: Wed, 24 Dec 2025 04:04:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.6716
- Title: Clever Hans in Chemistry: Chemist Style Signals Confound Activity Prediction on Public Benchmarks
- Title(参考訳): 化学のクリーヴ・ハンス氏:化学スタイルのシグナルは公共ベンチマーク上でのアクティビティ予測と矛盾する
- Authors: Andrew D. Blevins, Ian K. Quigley,
- Abstract要約: 我々は分子指紋から著者を予測するために1,815クラスの分類器を訓練し、足場ベースの分割で60%のトップ5の精度を達成した。
次に、分子記述子に直接アクセスすることなく、構造から導出されるタンパク質識別子と著者確率ベクトルのみを受信するアクティビティモデルを訓練する。
これは「クリーバー・ハンス」の失敗モードを達成している:モデルは、化学の研究室に依存しない理解を必要とせずに、主に化学者の目標とお気に入りの目標を推測することで、生物活性を予測することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Can machine learning models identify which chemist made a molecule from structure alone? If so, models trained on literature data may exploit chemist intent rather than learning causal structure-activity relationships. We test this by linking CHEMBL assays to publication authors and training a 1,815-class classifier to predict authors from molecular fingerprints, achieving 60% top-5 accuracy under scaffold-based splitting. We then train an activity model that receives only a protein identifier and an author-probability vector derived from structure, with no direct access to molecular descriptors. This author-only model achieves predictive power comparable to a simple baseline that has access to structure. This reveals a "Clever Hans" failure mode: models can predict bioactivity largely by inferring chemist goals and favorite targets without requiring a lab-independent understanding of chemistry. We analyze the sources of this leakage, propose author-disjoint splits, and recommend dataset practices to decouple chemist intent from biological outcomes.
- Abstract(参考訳): 機械学習モデルは、どの化学者が構造だけから分子を作ったかを特定できるのか?
もしそうなら、文献データに基づいて訓練されたモデルは、因果的構造-活動関係を学ぶのではなく、化学者の意図を利用するかもしれない。
我々は、CHEMBLアッセイを出版者へリンクし、分子指紋から著者を予測するために1,815クラスの分類器を訓練し、足場ベースの分割で60%のトップ5の精度を達成した。
次に、分子記述子に直接アクセスすることなく、構造から導出されるタンパク質識別子と著者確率ベクトルのみを受信するアクティビティモデルを訓練する。
この著者のみのモデルは、構造にアクセスできる単純なベースラインに匹敵する予測力を達成する。
モデルは、実験室に依存しない化学の理解を必要とせずに、主に化学者の目標とお気に入りのターゲットを推測することで、生物活性を予測することができる。
我々は,この漏れの原因を分析し,著者と意見の相違を提案するとともに,化学者の意図を生物学的結果から切り離すためのデータセットの実践を推奨する。
関連論文リスト
- MolProphecy: Bridging Medicinal Chemists' Knowledge and Molecular Pre-Trained Models via a Multi-Modal Framework [21.677162643535826]
MolProphecyは、化学者のドメイン知識を分子特性予測モデルに統合するためのフレームワークである。
ChatGPTは、専門家レベルの推論と意思決定をシミュレートする仮想化学者である。
MolProphecyは4つのベンチマークデータセットで、最先端(SOTA)モデルより優れています。
論文 参考訳(メタデータ) (2025-06-26T12:51:59Z) - MoleculeCLA: Rethinking Molecular Benchmark via Computational Ligand-Target Binding Analysis [18.940529282539842]
約140,000個の小分子からなる大規模かつ高精度な分子表現データセットを構築した。
我々のデータセットは、モデルの開発と設計をガイドするために、重要な物理化学的解釈性を提供します。
このデータセットは、分子表現学習のためのより正確で信頼性の高いベンチマークとして機能すると考えています。
論文 参考訳(メタデータ) (2024-06-13T02:50:23Z) - Atomic and Subgraph-aware Bilateral Aggregation for Molecular
Representation Learning [57.670845619155195]
我々は、原子とサブグラフを意識したバイラテラルアグリゲーション(ASBA)と呼ばれる分子表現学習の新しいモデルを導入する。
ASBAは、両方の種類の情報を統合することで、以前の原子単位とサブグラフ単位のモデルの限界に対処する。
本手法は,分子特性予測のための表現をより包括的に学習する方法を提供する。
論文 参考訳(メタデータ) (2023-05-22T00:56:00Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Discovery of structure-property relations for molecules via
hypothesis-driven active learning over the chemical space [0.0]
本稿では,仮説学習に基づく化学空間上の能動的学習のための新しいアプローチを提案する。
我々は,データサブセットの小さな部分集合に基づいて,関心の構造と機能の関係性に関する仮説を構築した。
このアプローチでは、SISSOやアクティブラーニングといったシンボリックレグレッションメソッドの要素をひとつのフレームワークに統合する。
論文 参考訳(メタデータ) (2023-01-06T14:22:43Z) - A Molecular Multimodal Foundation Model Associating Molecule Graphs with
Natural Language [63.60376252491507]
本稿では,分子グラフとその意味的関連テキストデータから事前学習した分子マルチモーダル基礎モデルを提案する。
我々のモデルは、生物学、化学、材料、環境、医学などの分野において、AIを動力とする分野に幅広い影響を与えるだろうと考えています。
論文 参考訳(メタデータ) (2022-09-12T00:56:57Z) - Semi-Supervised GCN for learning Molecular Structure-Activity
Relationships [4.468952886990851]
そこで本稿では,半教師付き学習を用いたグラフ-グラフ間ニューラルネットワークの学習手法を提案する。
最終目標として、我々のアプローチは、アクティビティ崖、リード最適化、デノボドラッグデザインといった問題に対処するための貴重なツールとなる可能性がある。
論文 参考訳(メタデータ) (2022-01-25T09:09:43Z) - Federated Learning of Molecular Properties in a Heterogeneous Setting [79.00211946597845]
これらの課題に対処するために、フェデレーションヘテロジニアス分子学習を導入する。
フェデレートラーニングにより、エンドユーザは、独立したクライアント上に分散されたトレーニングデータを保存しながら、グローバルモデルを協調的に構築できる。
FedChemは、化学におけるAI改善のための新しいタイプのコラボレーションを可能にする必要がある。
論文 参考訳(メタデータ) (2021-09-15T12:49:13Z) - Flexible dual-branched message passing neural network for quantum
mechanical property prediction with molecular conformation [16.08677447593939]
メッセージパッシングフレームワークに基づく分子特性予測のための二重分岐ニューラルネットワークを提案する。
本モデルでは,様々なスケールで異種分子の特徴を学習し,予測対象に応じて柔軟に学習する。
論文 参考訳(メタデータ) (2021-06-14T10:00:39Z) - ASGN: An Active Semi-supervised Graph Neural Network for Molecular
Property Prediction [61.33144688400446]
本稿では,ラベル付き分子とラベルなし分子の両方を組み込んだ,アクティブ半教師付きグラフニューラルネットワーク(ASGN)を提案する。
教師モデルでは,分子構造や分子分布から情報を共同で活用する汎用表現を学習するための,新しい半教師付き学習手法を提案する。
最後に,分子多様性の観点から,フレームワーク学習全体を通して情報的データを選択するための新しい能動的学習戦略を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:22:39Z) - Learning Graph Models for Retrosynthesis Prediction [90.15523831087269]
再合成予測は有機合成の基本的な問題である。
本稿では,前駆体分子のグラフトポロジーが化学反応中にほとんど変化しないという考え方を生かしたグラフベースのアプローチを提案する。
提案モデルでは,テンプレートフリーおよび半テンプレートベースの手法よりも高い5,3.7%の精度でトップ1の精度を実現している。
論文 参考訳(メタデータ) (2020-06-12T09:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。