論文の概要: Sort & Slice: A Simple and Superior Alternative to Hash-Based Folding for Extended-Connectivity Fingerprints
- arxiv url: http://arxiv.org/abs/2403.17954v1
- Date: Sun, 10 Mar 2024 16:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 02:34:48.497502
- Title: Sort & Slice: A Simple and Superior Alternative to Hash-Based Folding for Extended-Connectivity Fingerprints
- Title(参考訳): Sort & Slice: 拡張接続型フィンガープリントのためのハッシュベースのフォールディングの簡易かつ優れた代替品
- Authors: Markus Dablander, Thierry Hanser, Renaud Lambiotte, Garrett M. Morris,
- Abstract要約: 構造指紋のベクトル化のための一般的な数学的枠組みを,サブストラクチャープーリング(substructure pooling)と呼ばれる形式的操作により導入する。
Sort & Sliceは、ECFPサブ構造のプーリングのためのハッシュベースの折り畳みの、実装が容易でビットフリーな代替品である。
- 参考スコア(独自算出の注目度): 0.873811641236639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Extended-connectivity fingerprints (ECFPs) are a ubiquitous tool in current cheminformatics and molecular machine learning, and one of the most prevalent molecular feature extraction techniques used for chemical prediction. Atom features learned by graph neural networks can be aggregated to compound-level representations using a large spectrum of graph pooling methods; in contrast, sets of detected ECFP substructures are by default transformed into bit vectors using only a simple hash-based folding procedure. We introduce a general mathematical framework for the vectorisation of structural fingerprints via a formal operation called substructure pooling that encompasses hash-based folding, algorithmic substructure-selection, and a wide variety of other potential techniques. We go on to describe Sort & Slice, an easy-to-implement and bit-collision-free alternative to hash-based folding for the pooling of ECFP substructures. Sort & Slice first sorts ECFP substructures according to their relative prevalence in a given set of training compounds and then slices away all but the $L$ most frequent substructures which are subsequently used to generate a binary fingerprint of desired length, $L$. We computationally compare the performance of hash-based folding, Sort & Slice, and two advanced supervised substructure-selection schemes (filtering and mutual-information maximisation) for ECFP-based molecular property prediction. Our results indicate that, despite its technical simplicity, Sort & Slice robustly (and at times substantially) outperforms traditional hash-based folding as well as the other investigated methods across prediction tasks, data splitting techniques, machine-learning models and ECFP hyperparameters. We thus recommend that Sort & Slice canonically replace hash-based folding as the default substructure-pooling technique to vectorise ECFPs for supervised molecular machine learning.
- Abstract(参考訳): 拡張結合指紋(ECFPs)は、現在の化学情報学や分子機械学習においてユビキタスなツールであり、化学予測に用いられる最も一般的な分子の特徴抽出技術の1つである。
グラフニューラルネットワークによって学習されたAtom機能は、グラフプーリング手法の広いスペクトルを用いて複合レベル表現に集約することができる。
本稿では,ハッシュベースの折り畳み,アルゴリズムによるサブストラクチャ選択,その他の様々な潜在的手法を含む,構造指紋のベクトル化のための一般的な数学的枠組みについて紹介する。
続いて、ECFPサブ構造のプール化のためのハッシュベースの折り畳みに代わる、実装が容易でビットコリエーションのない代替品であるSort & Sliceについて説明する。
Sort & Sliceはまず、与えられたトレーニング化合物の集合における相対的な頻度に応じてECFPサブストラクチャをソートし、次に最も頻繁なサブストラクチャを除く全てのサブストラクチャをスライスする。
ECFPに基づく分子特性予測のためのハッシュベースの折り畳み、ソート&スライス、および2つの高度な教師付きサブ構造選択スキーム(フィルタリングと相互情報最大化)の性能を計算的に比較した。
我々の結果は、技術的単純さにもかかわらず、Srt & Sliceは従来のハッシュベースの折り畳みだけでなく、予測タスク、データ分割技術、機械学習モデル、ECFPハイパーパラメータといった他の調査手法よりも頑強に(時には実質的に)優れていることを示唆している。
そこで我々はSrt & Sliceをデフォルトのサブストラクチャプール技術として、ハッシュベースの折りたたみに置き換えてECFPをベクタライズし、分子機械学習に役立てることを推奨する。
関連論文リスト
- Accelerating spherical K-means clustering for large-scale sparse document data [0.7366405857677226]
本稿では,大規模かつ高次元のスパース文書データセットを対象とした球面K平均クラスタリングアルゴリズムを提案する。
提案手法は, 大規模文書において, 最先端技術を用いたアルゴリズムと比較して, 高速性能を効果的に達成できることを実験的に実証した。
論文 参考訳(メタデータ) (2024-11-18T05:50:58Z) - Faster Learned Sparse Retrieval with Block-Max Pruning [11.080810272211906]
本稿では,学習されたスパース検索環境に出現するインデックスに適した,革新的な動的プルーニング戦略であるBlock-Max Pruning(BMP)を紹介する。
BMPは既存の動的プルーニング戦略を大幅に上回り、安全な検索コンテキストにおいて非並列効率を提供する。
論文 参考訳(メタデータ) (2024-05-02T09:26:30Z) - Compact Neural Graphics Primitives with Learned Hash Probing [100.07267906666293]
学習したプローブを持つハッシュテーブルにはデメリットはなく,その結果,サイズと速度の組合せが好適であることを示す。
推論は、トレーニングが1.2-2.6倍遅い間、同じ品質で未処理のハッシュテーブルよりも高速である。
論文 参考訳(メタデータ) (2023-12-28T18:58:45Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z) - Multi-Modal Association based Grouping for Form Structure Extraction [14.134131448981295]
形態構造抽出のための新しいマルチモーダル手法を提案する。
我々は、TextBlocks、Text Fields、Choice Fields、Choice Groupsなどの高階構造を抽出する。
提案手法は, それぞれ90.29%, 73.80%, 83.12%, 52.72%のリコールを達成している。
論文 参考訳(メタデータ) (2021-07-09T12:49:34Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - HPNet: Deep Primitive Segmentation Using Hybrid Representations [51.56523135057311]
HPNetは、ポイントクラウドとして表現される3D形状をプリミティブパッチにセグメント化するための、新しいディープラーニングアプローチである。
単一の特徴表現を利用するのとは異なり、HPNetハイブリッド表現は1つの学習されたセマンティック記述子、予測パラメータから派生した2つのスペクトル記述子、および鋭いエッジを符号化する隣接行列を組み合わせる。
論文 参考訳(メタデータ) (2021-05-22T02:12:46Z) - Partitioned hybrid learning of Bayesian network structures [6.683105697884667]
分割ハイブリッドグリーディ探索(pHGS)を用いたベイズネットワーク構造学習のための新しいハイブリッド手法の開発
実験結果は,多くの最先端構造学習アルゴリズムに対して,phgの優れた経験的性能を示す。
論文 参考訳(メタデータ) (2021-03-22T21:34:52Z) - Oblique Predictive Clustering Trees [6.317966126631351]
予測クラスタリングツリー(PCT)は、構造化された出力予測を含む様々な予測モデリングタスクを解決するために使用できる。
本稿では,これらの制約に対処可能な斜めの予測クラスタリング木を提案する。
6つの予測モデルタスクのための60のベンチマークデータセットに対して提案手法を実験的に評価した。
論文 参考訳(メタデータ) (2020-07-27T14:58:23Z) - Torch-Struct: Deep Structured Prediction Library [138.5262350501951]
本稿では,構造化予測ライブラリTorch-Structを紹介する。
Torch-Structには,シンプルで柔軟な分散ベースのAPIを通じてアクセスされる,確率的構造の広範なコレクションが含まれている。
論文 参考訳(メタデータ) (2020-02-03T16:43:02Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。