論文の概要: Utilizing Low-Dimensional Molecular Embeddings for Rapid Chemical
Similarity Search
- arxiv url: http://arxiv.org/abs/2402.07970v1
- Date: Mon, 12 Feb 2024 18:24:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:52:23.620464
- Title: Utilizing Low-Dimensional Molecular Embeddings for Rapid Chemical
Similarity Search
- Title(参考訳): 低次元分子埋め込みを用いた迅速化学類似探索
- Authors: Kathryn E. Kirchoff, James Wellnitz, Joshua E. Hochuli, Travis
Maxfield, Konstantin I. Popov, Shawn Gomez, Alexander Tropsha
- Abstract要約: 最も近い近傍の類似性探索は化学における一般的な課題である。
このタスクでよく使われるアプローチのいくつかは、まだブルートフォースアプローチを利用している。
低次元の化学埋め込みとk-d木データ構造を組み合わせることで、近傍の高速なクエリを実現できることを示す。
- 参考スコア(独自算出の注目度): 38.025088723286785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nearest neighbor-based similarity searching is a common task in chemistry,
with notable use cases in drug discovery. Yet, some of the most commonly used
approaches for this task still leverage a brute-force approach. In practice
this can be computationally costly and overly time-consuming, due in part to
the sheer size of modern chemical databases. Previous computational
advancements for this task have generally relied on improvements to hardware or
dataset-specific tricks that lack generalizability. Approaches that leverage
lower-complexity searching algorithms remain relatively underexplored. However,
many of these algorithms are approximate solutions and/or struggle with typical
high-dimensional chemical embeddings. Here we evaluate whether a combination of
low-dimensional chemical embeddings and a k-d tree data structure can achieve
fast nearest neighbor queries while maintaining performance on standard
chemical similarity search benchmarks. We examine different dimensionality
reductions of standard chemical embeddings as well as a learned,
structurally-aware embedding -- SmallSA -- for this task. With this framework,
searches on over one billion chemicals execute in less than a second on a
single CPU core, five orders of magnitude faster than the brute-force approach.
We also demonstrate that SmallSA achieves competitive performance on chemical
similarity benchmarks.
- Abstract(参考訳): 最も近い近隣の類似性探索は化学において一般的な課題であり、薬物発見に顕著なユースケースがある。
しかし、このタスクでよく使われるアプローチのいくつかは、まだブルートフォースアプローチを利用している。
実際には、これは計算にコストと過大な時間を要する可能性がある。
このタスクのこれまでの計算の進歩は一般に、一般化性に欠けるハードウェアやデータセット固有のトリックの改善に依存してきた。
低複雑度探索アルゴリズムを利用するアプローチは比較的未検討のままである。
しかし、これらのアルゴリズムの多くは近似解であり、あるいは典型的な高次元の化学埋め込みと競合する。
本稿では,k-d木構造と低次元ケミカル組込みの組み合わせが,標準ケミカル類似性検索ベンチマークの性能を維持しつつ,最寄りの高速クエリを実現することができるかを評価する。
本研究は, 標準化学埋め込みの次元的低減と, 学習された, 構造を意識した埋め込み(SmallSA)について検討する。
このフレームワークでは、10億以上の化学物質を1つのCPUコア上で1秒未満で検索し、ブルートフォースアプローチよりも5桁高速になる。
また,SmallSAが化学類似性ベンチマークにおいて競合性能を達成することを示す。
関連論文リスト
- LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Clustering with minimum spanning trees: How good can it be? [1.9999259391104391]
低次元分割データクラスタリングタスクにおいて、最小分散木が意味のある範囲を定量化する。
我々は、既存の最先端のMSTベースの分割スキームをレビューし、研究し、拡張し、一般化する。
全体として、Genieと情報理論の手法は、MST以外のアルゴリズムよりも優れていることが多い。
論文 参考訳(メタデータ) (2023-03-10T03:18:03Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - Neural Networks for Local Search and Crossover in Vehicle Routing: A
Possible Overkill? [10.882329986831087]
我々は,Hybrid Genetic Search(HGS)を改善するために,グラフニューラルネットワーク(GNN)のヒートマップ形式での予測の利用を検討した。
ノード関連性の尺度を用いて,より高度な戦略を活用すれば,性能を大幅に向上できることを示す。
しかし,当初の期待とは裏腹に,ヒートマップは単純な距離測定よりも有意なアドバンテージを示さなかった。
論文 参考訳(メタデータ) (2022-09-09T22:08:17Z) - Frequent Itemset-driven Search for Finding Minimum Node Separators in
Complex Networks [61.2383572324176]
本稿では,データマイニングにおける頻繁なアイテムセットマイニングの概念をよく知られたメメティック検索フレームワークに統合する,頻繁なアイテムセット駆動探索手法を提案する。
頻繁なアイテムセット組換え演算子を反復的に使用して、高品質なソリューションで頻繁に発生するアイテムセットに基づいた有望な子孫ソリューションを生成する。
特に、29個の新しい上界を発見し、以前の18個の最もよく知られた境界と一致する。
論文 参考訳(メタデータ) (2022-01-18T11:16:40Z) - Exploring Complicated Search Spaces with Interleaving-Free Sampling [127.07551427957362]
本稿では,長距離接続を伴う複雑な検索空間上に探索アルゴリズムを構築する。
我々はtextbfIF-NAS という単純なアルゴリズムを提案し、異なるサブネットワークを構築するために周期的なサンプリング戦略を実行する。
提案した探索空間において、IF-NASはランダムサンプリングと従来の重み付け検索のアルゴリズムを有意差で上回っている。
論文 参考訳(メタデータ) (2021-12-05T06:42:48Z) - Pre-Clustering Point Clouds of Crop Fields Using Scalable Methods [14.06711982797654]
この問題に対する現在の最先端技術と、一般的な密度に基づくクラスタリングアルゴリズムであるQuickshiftの類似性を示す。
汎用的でスケーラブルなプラントセグメンテーションアルゴリズムを作成することを目的とした,新しいアプリケーション固有アルゴリズムを提案する。
フィールドスケールの表現型システムに組み込む場合、提案アルゴリズムは、結果の精度を大幅に向上させる代替品として機能する。
論文 参考訳(メタデータ) (2021-07-22T22:47:22Z) - Hybrid divide-and-conquer approach for tree search algorithms [0.0]
本稿では,木探索アルゴリズムの文脈におけるハイブリッド分割・コンカレント手法について検討する。
DPLLのアルゴリズムの高速化条件について述べる。
本稿では,大規模問題に対する高速化におけるハイブリッド手法の限界について概説する。
論文 参考訳(メタデータ) (2020-07-14T13:57:12Z) - Learning to Accelerate Heuristic Searching for Large-Scale Maximum
Weighted b-Matching Problems in Online Advertising [51.97494906131859]
バイパルタイトbマッチングはアルゴリズム設計の基本であり、経済市場や労働市場などに広く適用されている。
既存の正確で近似的なアルゴリズムは、通常そのような設定で失敗する。
我々は、以前の事例から学んだ知識を活用して、新しい問題インスタンスを解決するtextttNeuSearcherを提案する。
論文 参考訳(メタデータ) (2020-05-09T02:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。