論文の概要: Tanimoto Random Features for Scalable Molecular Machine Learning
- arxiv url: http://arxiv.org/abs/2306.14809v1
- Date: Mon, 26 Jun 2023 16:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:49:13.014323
- Title: Tanimoto Random Features for Scalable Molecular Machine Learning
- Title(参考訳): スケーラブルな分子機械学習のためのTanimoto Random機能
- Authors: Austin Tripp, Sergio Bacallado, Sukriti Singh, Jos\'e Miguel
Hern\'andez-Lobato
- Abstract要約: 谷本係数は、離散指紋として表される分子間の類似度を測定するために一般的に用いられる。
本稿では,このカーネルを大規模データセットに拡張するための2種類の新しいランダムな特徴を提案する。
本研究で提案するランダムな特徴は,実世界のデータセットにおける谷本係数の近似に有効であることを示す。
- 参考スコア(独自算出の注目度): 1.3999481573773074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Tanimoto coefficient is commonly used to measure the similarity between
molecules represented as discrete fingerprints, either as a distance metric or
a positive definite kernel. While many kernel methods can be accelerated using
random feature approximations, at present there is a lack of such
approximations for the Tanimoto kernel. In this paper we propose two kinds of
novel random features to allow this kernel to scale to large datasets, and in
the process discover a novel extension of the kernel to real vectors. We
theoretically characterize these random features, and provide error bounds on
the spectral norm of the Gram matrix. Experimentally, we show that the random
features proposed in this work are effective at approximating the Tanimoto
coefficient in real-world datasets and that the kernels explored in this work
are useful for molecular property prediction and optimization tasks.
- Abstract(参考訳): 谷本係数は、離散指紋として表される分子間の類似度を距離メートル法または正定核として測定するために一般的に用いられる。
多くのカーネル法はランダムな特徴近似を用いて加速できるが、現在、谷本核にはそのような近似が欠如している。
本稿では,このカーネルを大規模データセットにスケール可能な2種類の新しいランダムな特徴を提案し,その過程で実ベクトルへのカーネルの新たな拡張を発見する。
我々はこれらのランダムな特徴を理論的に特徴づけ、グラム行列のスペクトルノルムに誤差境界を与える。
本研究で提案するランダムな特徴は実世界のデータセットにおける谷本係数の近似に有効であり,本研究で探索されたカーネルは分子特性予測や最適化タスクに有用であることを示す。
関連論文リスト
- General Graph Random Features [42.75616308187867]
重み付き隣接行列の任意の関数の偏りのない推定のためのランダムウォークに基づく新しいアルゴリズムを提案する。
提案アルゴリズムは, ノード数に関して, グラフカーネル評価の厳密な3次スケーリングを克服し, 準四次時間的複雑性を享受する。
論文 参考訳(メタデータ) (2023-10-07T15:47:31Z) - Simplex Random Features [53.97976744884616]
ソフトマックスおよびガウスカーネルの非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。
我々は,これらのカーネルの非バイアス推定値に対して,SimRFが最小平均二乗誤差(MSE)を提供することを示す。
ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において,SimRFによる一貫したゲインを示す。
論文 参考訳(メタデータ) (2023-01-31T18:53:39Z) - Local Random Feature Approximations of the Gaussian Kernel [14.230653042112834]
本稿では,一般的なガウスカーネルと,ランダムな特徴近似を用いてカーネルベースモデルを線形化する手法に着目する。
このような手法は、高周波データをモデル化する際、悪い結果をもたらすことを示すとともに、カーネル近似と下流性能を大幅に改善する新たなローカライズ手法を提案する。
論文 参考訳(メタデータ) (2022-04-12T09:52:36Z) - Improved Random Features for Dot Product Kernels [12.321353062415701]
我々はドット製品カーネルのランダムな特徴近似の効率を改善するために、いくつかの新しい貢献をしている。
複雑な特徴の利用はこれらの近似のばらつきを著しく減少させることができることを実証的に示す。
一般のドット製品カーネルのランダムな特徴近似を改善するために,データ駆動型最適化手法を開発した。
論文 参考訳(メタデータ) (2022-01-21T14:16:56Z) - Hybrid Random Features [60.116392415715275]
ハイブリッドランダム特徴(HRF)と呼ばれるソフトマックスとガウス核の線形化のための新しいランダム特徴法を提案する。
HRFは、カーネル推定の品質を自動的に適応し、定義された関心領域の最も正確な近似を提供する。
論文 参考訳(メタデータ) (2021-10-08T20:22:59Z) - Large-Scale Learning with Fourier Features and Tensor Decompositions [3.6930948691311007]
決定論的フーリエ特徴のテンソル積構造を利用して、モデルパラメータを低ランクテンソル分解として表現することができる。
数値実験により、我々の低ランクテンソル法が対応する非パラメトリックモデルと同じ性能を得ることを示す。
論文 参考訳(メタデータ) (2021-09-03T14:12:53Z) - A Note on Optimizing Distributions using Kernel Mean Embeddings [94.96262888797257]
カーネル平均埋め込みは、その無限次元平均埋め込みによる確率測度を表す。
カーネルが特徴的である場合、カーネルの総和密度を持つ分布は密度が高いことを示す。
有限サンプル設定でそのような分布を最適化するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-18T08:33:45Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - Function Approximation via Sparse Random Features [23.325877475827337]
本稿では,圧縮センシングの手法を用いて無作為特徴モデルを学習する分散ランダム特徴量法を提案する。
分散ランダム特徴法は,十分に構造化された機能や科学的機械学習タスクへの応用において,浅層ネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-04T17:53:54Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z) - Fast approximations in the homogeneous Ising model for use in scene
analysis [61.0951285821105]
我々は、推論に必要な量を数値計算できる正確な近似を提供する。
近似式はスケーラブルでマルコフランダム場の大きさに満足できないことを示す。
機能的磁気共鳴イメージングアクティベーション検出実験においてベイズ推論を行い, ピスタチオ樹収量の年次増加の空間パターンにおける異方性に対する確率比試験を行った。
論文 参考訳(メタデータ) (2017-12-06T14:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。