論文の概要: When Does Context Help? A Systematic Study of Target-Conditional Molecular Property Prediction
- arxiv url: http://arxiv.org/abs/2604.06558v1
- Date: Wed, 08 Apr 2026 01:19:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.283298
- Title: When Does Context Help? A Systematic Study of Target-Conditional Molecular Property Prediction
- Title(参考訳): コンテキストはいつ役に立つか? : ターゲット-概念的分子特性予測の体系的研究
- Authors: Bryan Cheng, Jasper Zhang,
- Abstract要約: ターゲットコンテキストが分子特性の予測に役立っているかに関する最初の体系的研究。
NestDrugはFiLMベースのアーキテクチャで、ターゲットのアイデンティティに分子表現を設定できる。
最初の厳密な証拠は、文脈条件分子表現が将来の化学空間に一般化されることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first systematic study of when target context helps molecular property prediction, evaluating context conditioning across 10 diverse protein families, 4 fusion architectures, data regimes spanning 67-9,409 training compounds, and both temporal and random evaluation splits. Using NestDrug, a FiLM-based architecture that conditions molecular representations on target identity, we characterize both success and failure modes with three principal findings. First, fusion architecture dominates: FiLM outperforms concatenation by 24.2 percentage points and additive conditioning by 8.6 pp; how you incorporate context matters more than whether you include it. Second, context enables otherwise impossible predictions: on data-scarce CYP3A4 (67 training compounds), multi-task transfer achieves 0.686 AUC where per-target Random Forest collapses to 0.238. Third, context can systematically hurt: distribution mismatch causes 10.2 pp degradation on BACE1; few-shot adaptation consistently underperforms zero-shot. Beyond methodology, we expose fundamental flaws in standard benchmarking: 1-nearest-neighbor Tanimoto achieves 0.991 AUC on DUD-E without any learning, and 50% of actives leak from training data, rendering absolute performance metrics meaningless. Our temporal split evaluation (train up to 2020, test 2021-2024) achieves stable 0.843 AUC with no degradation, providing the first rigorous evidence that context-conditional molecular representations generalize to future chemical space.
- Abstract(参考訳): 本研究では,10種類のタンパク質ファミリー,4つの融合構造,67-9,409個のトレーニング化合物にまたがるデータ構造,時間的およびランダムな評価分割などを対象に,標的コンテキストが分子特性の予測にいつ役立つかを示す。
NestDrugは、ターゲットアイデンティティに分子表現を条件付けるFiLMベースのアーキテクチャであり、成功モードと失敗モードの両方を3つの主要な発見で特徴づける。
まず、融合アーキテクチャが優位である: FiLMは結合を24.2ポイント、追加条件を8.6ppで上回ります。
第2に、コンテキストによっては不可能な予測が可能であり、データスカースCYP3A4(67のトレーニング化合物)では、ターゲット当たりのランダムフォレストが0.238に崩壊する0.686AUCを達成する。
第3に、コンテキストが体系的に損なわれることがある: 分散ミスマッチはBACE1の10.2ppの劣化を引き起こす。
1-nearest-neighbor Tanimotoは、DUD-E上で0.991 AUCを学習することなく達成し、50%のアクティブがトレーニングデータから漏洩し、絶対的なパフォーマンス指標を無意味にレンダリングする。
我々の時間分割評価(2020年までの試験2021-2024)は、劣化のない0.843 AUCを安定に達成し、文脈条件分子表現が将来の化学空間に一般化する最初の厳密な証拠となる。
関連論文リスト
- Bit-Identical Medical Deep Learning via Structured Orthogonal Initialization [0.0]
深層学習トレーニングは非決定論的であり、異なるランダムなシードを持つ同一のコードは、集約メトリクスに異を唱えるが個々の予測に異を唱えるモデルを生成する。
ランダム性の3つの源を除去する検証ビット識別訓練の枠組みを提案する。
論文 参考訳(メタデータ) (2026-03-30T05:04:57Z) - PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution [2.28438857884398]
自然言語として知識を格納するLLMエージェントは、条件数の増加に伴って急激な検索劣化に悩まされる。
本稿では,3つの密結合コンポーネントによるテスト時間適応のための統合フレームワークであるPreCEPTを紹介する。
論文 参考訳(メタデータ) (2026-03-10T13:16:45Z) - Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection [2.8547732086436306]
教師付きディープラーニングの基本的限界は「一般化崩壊」である
階層型2段階表現学習フレームワークであるLatent Sculptingを提案する。
我々は「浸潤」のシナリオについて88.89%の検知率を報告した。
論文 参考訳(メタデータ) (2025-12-19T11:37:02Z) - Loss Given Default Prediction Under Measurement-Induced Mixture Distributions: An Information-Theoretic Approach [0.2538209532048866]
Loss given Default (LGD)モデリングは、基本的なデータ品質の制約に直面します。
利用可能なトレーニングデータの90%は、完了した破産手続きの実際の回復結果ではなく、プレディストレストバランスシートに基づくプロキシ推定で構成されている。
論文 参考訳(メタデータ) (2025-10-29T10:11:38Z) - A Comprehensive Forecasting-Based Framework for Time Series Anomaly Detection: Benchmarking on the Numenta Anomaly Benchmark (NAB) [0.0]
時系列異常検出は、現代のデジタルインフラにとって重要である。
本稿では,従来の手法をディープラーニングアーキテクチャと統合した予測ベースのフレームワークを提案する。
Numenta Anomaly Benchmark の最初の完全評価を行う。
論文 参考訳(メタデータ) (2025-10-13T08:31:42Z) - NAIPv2: Debiased Pairwise Learning for Efficient Paper Quality Estimation [58.30936615525824]
本稿では,紙の品質評価のための非バイアスで効率的なフレームワークであるNAIPv2を提案する。
NAIPv2は、レビューアレーティングの不整合を低減するために、ドメイン年グループ内でペアワイズ学習を採用している。
これはペアワイズ比較に基づいてトレーニングされるが、デプロイ時に効率的なポイントワイズ予測を可能にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models [57.474294329887236]
拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
論文 参考訳(メタデータ) (2025-08-12T17:59:57Z) - A theoretical framework for self-supervised contrastive learning for continuous dependent data [79.62732169706054]
自己教師付き学習(SSL)は、特にコンピュータビジョンの分野で、表現を学習するための強力なアプローチとして登場した。
本稿では,サンプル間のアンフェマティック独立に適した対照的なSSLの理論的枠組みを提案する。
具体的には、標準のUEAベンチマークとUCRベンチマークでTS2Vecを上回り、それぞれ4.17$%と2.08$%の精度で改善した。
論文 参考訳(メタデータ) (2025-06-11T14:23:47Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。