論文の概要: APEX: Approximate-but-exhaustive search for ultra-large combinatorial synthesis libraries
- arxiv url: http://arxiv.org/abs/2510.24380v1
- Date: Tue, 28 Oct 2025 12:57:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.12417
- Title: APEX: Approximate-but-exhaustive search for ultra-large combinatorial synthesis libraries
- Title(参考訳): APEX:超大型複合合成ライブラリの近似的探索
- Authors: Aryan Pedawi, Jordi Silvestre-Ryan, Bradley Worley, Darren J Hsu, Kushal S Shah, Elias Stehle, Jingrong Zhang, Izhar Wallach,
- Abstract要約: Enamine REALのようなオンデマンド合成ライブラリ(CSL)は、薬物発見の取り組みを著しく促進している。
現在、通常の仮想スクリーニングキャンペーンは、利用可能な化合物の0.1%未満のスコアに制限されている。
本稿では,CSL (APEX) に対する近似的だが排他的探索プロトコルを提案する。
- 参考スコア(独自算出の注目度): 0.28106259549258145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Make-on-demand combinatorial synthesis libraries (CSLs) like Enamine REAL have significantly enabled drug discovery efforts. However, their large size presents a challenge for virtual screening, where the goal is to identify the top compounds in a library according to a computational objective (e.g., optimizing docking score) subject to computational constraints under a limited computational budget. For current library sizes -- numbering in the tens of billions of compounds -- and scoring functions of interest, a routine virtual screening campaign may be limited to scoring fewer than 0.1% of the available compounds, leaving potentially many high scoring compounds undiscovered. Furthermore, as constraints (and sometimes objectives) change during the course of a virtual screening campaign, existing virtual screening algorithms typically offer little room for amortization. We propose the approximate-but-exhaustive search protocol for CSLs, or APEX. APEX utilizes a neural network surrogate that exploits the structure of CSLs in the prediction of objectives and constraints to make full enumeration on a consumer GPU possible in under a minute, allowing for exact retrieval of approximate top-$k$ sets. To demonstrate APEX's capabilities, we develop a benchmark CSL comprised of more than 10 million compounds, all of which have been annotated with their docking scores on five medically relevant targets along with physicohemical properties measured with RDKit such that, for any objective and set of constraints, the ground truth top-$k$ compounds can be identified and compared against the retrievals from any virtual screening algorithm. We show APEX's consistently strong performance both in retrieval accuracy and runtime compared to alternative methods.
- Abstract(参考訳): Enamine REALのようなオンデマンド複合合成ライブラリ(CSL)は、薬物発見の取り組みを著しく促進している。
しかし,それらの大規模化は,計算予算に制限のある計算制約を受ける計算目的(ドッキングスコアの最適化など)に応じて,ライブラリ内の上位化合物を識別することを目的とする,仮想スクリーニングの課題を呈している。
現在の図書館の規模(数百億の化合物を数える)と、興味のある機能を評価するために、通常の仮想スクリーニングキャンペーンは利用可能な化合物の0.1%未満に制限され、多くの高いスコアリング化合物が発見されない可能性がある。
さらに、仮想スクリーニングキャンペーン中に制約(と時には目的)が変わるため、既存の仮想スクリーニングアルゴリズムは、通常、償却の余地がほとんどない。
本稿では,CSL (APEX) に対する近似的だが排他的探索プロトコルを提案する。
APEXは、目的と制約の予測にCSLの構造を利用するニューラルネットワークサロゲートを使用して、1分以内でコンシューマGPUの完全な列挙を可能にし、近似したトップ$k$セットの正確な検索を可能にする。
APEXの能力を実証するために,1000万以上の化合物からなるベンチマークCSLを開発した。これらは5つの医学的関連目標に対してドッキングスコアとRDKitで測定された物理化学的特性とをアノテートしたもので,任意の目的と制約に対して,任意の仮想スクリーニングアルゴリズムによる検索に対して,基底真理のトップ$k$化合物を同定し比較することができる。
本稿では,APEXの検索精度と実行性能の両面において,他の手法と比較して一貫して強い性能を示す。
関連論文リスト
- Identifying All ε-Best Arms in (Misspecified) Linear Bandits [9.638337713545065]
LinFACT (LinFACT) は、リニアバンディットにおける全てのエプシロンベストアームの識別を最適化するために設計されたアルゴリズムである。
我々は、LinFACTが、この下界を対数係数にマッチングすることで、インスタンス最適性を達成することを示す。
合成および実薬品発見データを含む数値実験により、LinFACTはサンプルの複雑さを減らしたより有望な候補を同定することを示した。
論文 参考訳(メタデータ) (2025-09-29T22:26:52Z) - Bridge Feature Matching and Cross-Modal Alignment with Mutual-filtering for Zero-shot Anomaly Detection [25.349261412750586]
本研究では,ZSAD 用 textbfFiSeCLIP とトレーニング不要 textbfCLIP を導入し,特徴マッチングとクロスモーダルアライメントを組み合わせた。
本手法は,異常検出ベンチマークにおいて,異常分類とセグメンテーションの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2025-07-15T05:42:17Z) - SQLNet: Scale-Modulated Query and Localization Network for Few-Shot Class-Agnostic Counting [67.97870844244187]
CAC(class-agnostic counting)タスクは、最近、任意のクラスの全てのオブジェクトを、入力画像にいくつかの例を付与してカウントする問題を解くために提案されている。
我々は、スケール変調クエリーおよびローカライズネットワーク(Net)と呼ばれる、新しいローカライズベースのCACアプローチを提案する。
クエリとローカライゼーションの段階において、模範者のスケールを完全に探求し、各オブジェクトを正確に位置付けし、その近似サイズを予測することで、効果的なカウントを実現している。
論文 参考訳(メタデータ) (2023-11-16T16:50:56Z) - DrugCLIP: Contrastive Protein-Molecule Representation Learning for
Virtual Screening [16.31607535765497]
DrugCLIPは、仮想スクリーニングのための新しい対照的な学習フレームワークである。
明示的な結合親和性スコアなしで、大量のペアデータから結合タンパク質ポケットと分子の表現を調整できる。
様々な仮想スクリーニングベンチマークにおいて、従来のドッキングや教師あり学習方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-10T07:08:35Z) - BOtied: Multi-objective Bayesian optimization with tied multivariate ranks [33.414682601242006]
本稿では,非支配解と結合累積分布関数の極端量子化との自然な関係を示す。
このリンクにより、我々はPareto対応CDFインジケータと関連する取得関数BOtiedを提案する。
種々の合成および実世界の問題に対する実験により,BOtied は最先端MOBO 取得関数より優れていることが示された。
論文 参考訳(メタデータ) (2023-06-01T04:50:06Z) - Rapid Adaptation in Online Continual Learning: Are We Evaluating It
Right? [135.71855998537347]
オンライン連続学習(OCL)アルゴリズムの適応性を評価するための一般的な手法を,オンライン精度の指標を用いて再検討する。
空白のブラインド分類器でさえ、非現実的に高いオンライン精度を達成できるため、この指標は信頼できない。
既存のOCLアルゴリズムは、オンラインの精度も高いが、有用な情報の保持は不十分である。
論文 参考訳(メタデータ) (2023-05-16T08:29:33Z) - ALMERIA: Boosting pairwise molecular contrasts with scalable methods [0.0]
ALMERIAは、一対の分子コントラストに基づく化合物の類似性と活性予測を推定するためのツールである。
大量のデータを利用するスケーラブルなソフトウェアと手法を使って実装されている。
分子活性予測の最先端性能を示す実験を行った。
論文 参考訳(メタデータ) (2023-04-28T16:27:06Z) - Computationally Budgeted Continual Learning: What Does Matter? [128.0827987414154]
CL (Continuous Learning) は、新しいデータに適応しながら、以前の知識を保存し、分布の異なる入力データのストリーム上でモデルを逐次訓練することを目的としている。
現在のCL文献では、以前のデータへのアクセス制限に焦点が当てられているが、トレーニングの計算予算に制約は課されていない。
本稿では,この問題を大規模ベンチマークで再検討し,計算制約条件下での従来のCL手法の性能解析を行う。
論文 参考訳(メタデータ) (2023-03-20T14:50:27Z) - Accelerating high-throughput virtual screening through molecular
pool-based active learning [2.17167311150369]
ライブラリのサブセットの予測親和性に基づいてトレーニングされた構造プロパティモデルが、残りのライブラリメンバーにどのように適用できるかを示す。
欲求獲得戦略を用いても,計算コストの大幅な削減が観察された。
論文 参考訳(メタデータ) (2020-12-13T19:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。