論文の概要: Hash Collisions in Molecular Fingerprints: Effects on Property Prediction and Bayesian Optimization
- arxiv url: http://arxiv.org/abs/2511.17078v1
- Date: Fri, 21 Nov 2025 09:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.956345
- Title: Hash Collisions in Molecular Fingerprints: Effects on Property Prediction and Bayesian Optimization
- Title(参考訳): 分子指紋におけるハッシュ衝突:特性予測とベイズ最適化への影響
- Authors: Walter Virany, Austin Tripp,
- Abstract要約: 分子フィンガープリント法はハッシュ関数を用いて分子の固定長ベクトル表現を生成する。
ハッシュ衝突は、異なるサブ構造を同じ特徴で表す原因となり、分子類似性計算において過大評価される。
5つの分子特性予測ベンチマークにおいて, 正確な指紋を用いた場合, 精度は小さながら一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 4.157678834755669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecular fingerprinting methods use hash functions to create fixed-length vector representations of molecules. However, hash collisions cause distinct substructures to be represented with the same feature, leading to overestimates in molecular similarity calculations. We investigate whether using exact fingerprints improves accuracy compared to standard compressed fingerprints in molecular property prediction and Bayesian optimization where the underlying predictive model is a Gaussian process. We find that using exact fingerprints yields a small yet consistent improvement in predictive accuracy on five molecular property prediction benchmarks from the DOCKSTRING dataset. However, these gains did not translate to significant improvements in Bayesian optimization performance.
- Abstract(参考訳): 分子フィンガープリント法はハッシュ関数を用いて分子の固定長ベクトル表現を生成する。
しかし、ハッシュ衝突は異なるサブ構造を同じ特徴で表す原因となり、分子類似性の計算では過大評価される。
分子特性予測とベイズ最適化において, 正確な指紋を用いた場合, 標準圧縮指紋と比較して精度が向上するかどうかを検討する。
DOCKSTRINGデータセットから得られた5つの分子特性予測ベンチマークにおいて, 正確な指紋を用いた場合, 予測精度は小さいが一貫した改善が得られた。
しかし、これらの利点はベイズ最適化性能の大幅な改善には至らなかった。
関連論文リスト
- Molecular Fingerprints Are Strong Models for Peptide Function Prediction [0.0]
長距離分子相互作用はしばしば、複雑なグラフニューラルネットワークと事前訓練されたトランスフォーマーのモデリングを必要とすると仮定される。
単純でドメイン特異的な分子指紋がこれらの仮定なしでペプチド機能を捉えることができるかどうかを検討する。
本研究は, 分子指紋をペプチド予測のための効率的, 解釈可能, 計算的に軽量な代替手段として強調し, 長距離相互作用モデルの必要性を推察するものである。
論文 参考訳(メタデータ) (2025-01-29T10:05:27Z) - ADMET property prediction through combinations of molecular fingerprints [0.0]
ランダムフォレスト(ランダムフォレスト)またはサポートベクターマシン(サポートベクターマシン)は、最近開発された手法より一貫して優れている。
回帰アルゴリズムと分子指紋の詳細な研究により、勾配型決定木が明らかになった。
私たちは22のTherapeutics Data Commons ADMETベンチマークでモデルを検証しました。
論文 参考訳(メタデータ) (2023-09-29T22:39:18Z) - ProxyFAUG: Proximity-based Fingerprint Augmentation [81.15016852963676]
ProxyFAUGはルールベースで近接性に基づく指紋増強法である。
このデータセット上で最高のパフォーマンスの測位法は、中央値エラーで40%改善され、平均誤差で6%向上した。
論文 参考訳(メタデータ) (2021-02-04T15:59:30Z) - Bayesian Graph Neural Networks for Molecular Property Prediction [15.160090982544867]
本研究では、QM9回帰データセットを用いて、有向MPNNに適用されたベイズ的手法のセットをベンチマークする。
読み出しパラメータとメッセージパッシングパラメータの両方で不確実性を捕捉すると、下流分子探索タスクにおける予測精度、キャリブレーション、性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-11-25T22:32:54Z) - CIMON: Towards High-quality Hash Codes [63.37321228830102]
我々はtextbfComprehensive stextbfImilarity textbfMining と ctextbfOnsistency leartextbfNing (CIMON) という新しい手法を提案する。
まず、グローバルな洗練と類似度統計分布を用いて、信頼性とスムーズなガイダンスを得る。第二に、意味的整合性学習とコントラスト的整合性学習の両方を導入して、乱不変と差別的ハッシュコードの両方を導出する。
論文 参考訳(メタデータ) (2020-10-15T14:47:14Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z) - Generative Semantic Hashing Enhanced via Boltzmann Machines [61.688380278649056]
既存の生成ハッシュ法は、主に後部分布の分解形式を仮定する。
本稿では,ボルツマンマシンの分布を検索後部として利用することを提案する。
ハッシュコード内の異なるビット間の相関関係を効果的にモデル化することにより、我々のモデルは大幅な性能向上を達成できることを示す。
論文 参考訳(メタデータ) (2020-06-16T01:23:39Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。