論文の概要: Computing Gram Matrix for SMILES Strings using RDKFingerprint and Sinkhorn-Knopp Algorithm
- arxiv url: http://arxiv.org/abs/2412.14717v1
- Date: Thu, 19 Dec 2024 10:31:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:30:29.768901
- Title: Computing Gram Matrix for SMILES Strings using RDKFingerprint and Sinkhorn-Knopp Algorithm
- Title(参考訳): RDKFingerprintとSinkhorn-Knoppアルゴリズムを用いたSMILES文字列の文法行列計算
- Authors: Sarwan Ali, Haris Mansoor, Prakash Chourasia, Imdad Ullah Khan, Murray Patterson,
- Abstract要約: 分子構造データでは、SMILES (Simplified Molecular Input Line Entry System) 文字列を用いて分子構造設計を分析する。
本研究では、SMILES文字列から分子構造を符号化・解析するためのカーネルベースのアプローチを提案する。
- 参考スコア(独自算出の注目度): 3.9146761527401424
- License:
- Abstract: In molecular structure data, SMILES (Simplified Molecular Input Line Entry System) strings are used to analyze molecular structure design. Numerical feature representation of SMILES strings is a challenging task. This work proposes a kernel-based approach for encoding and analyzing molecular structures from SMILES strings. The proposed approach involves computing a kernel matrix using the Sinkhorn-Knopp algorithm while using kernel principal component analysis (PCA) for dimensionality reduction. The resulting low-dimensional embeddings are then used for classification and regression analysis. The kernel matrix is computed by converting the SMILES strings into molecular structures using the Morgan Fingerprint, which computes a fingerprint for each molecule. The distance matrix is computed using the pairwise kernels function. The Sinkhorn-Knopp algorithm is used to compute the final kernel matrix that satisfies the constraints of a probability distribution. This is achieved by iteratively adjusting the kernel matrix until the marginal distributions of the rows and columns match the desired marginal distributions. We provided a comprehensive empirical analysis of the proposed kernel method to evaluate its goodness with greater depth. The suggested method is assessed for drug subcategory prediction (classification task) and solubility AlogPS ``Aqueous solubility and Octanol/Water partition coefficient" (regression task) using the benchmark SMILES string dataset. The outcomes show the proposed method outperforms several baseline methods in terms of supervised analysis and has potential uses in molecular design and drug discovery. Overall, the suggested method is a promising avenue for kernel methods-based molecular structure analysis and design.
- Abstract(参考訳): 分子構造データでは、SMILES (Simplified Molecular Input Line Entry System) 文字列を用いて分子構造設計を分析する。
SMILES文字列の数値的特徴表現は難しい課題である。
本研究では、SMILES文字列から分子構造を符号化・解析するためのカーネルベースのアプローチを提案する。
提案手法では,Sinkhorn-Knoppアルゴリズムを用いてカーネル行列を計算し,カーネル主成分分析(PCA)を用いて次元還元を行う。
結果として得られる低次元埋め込みは、分類と回帰解析に使用される。
カーネルマトリックスは、各分子の指紋を計算するMorgan Fingerprintを用いてSMILES文字列を分子構造に変換することによって計算される。
距離行列は、対核関数を用いて計算される。
Sinkhorn-Knoppアルゴリズムは、確率分布の制約を満たす最後のカーネル行列を計算するために用いられる。
これは、行と列の辺分布が所望の辺分布に一致するまで、カーネル行列を反復的に調整することで達成される。
提案手法の総合的な実験解析を行い,その良さをより深い深さで評価した。
提案手法は,SMILES文字列データセットを用いて薬物サブカテゴリ予測(分類タスク)および溶解度AlogPS ``Aqueous Solubility and Octanol/Water partition coefficient"(回帰タスク)について評価した。
これらの結果から,本手法は分子設計や創薬に有用である可能性が示唆された。
提案手法はカーネル法に基づく分子構造解析と設計において有望な方法である。
関連論文リスト
- Toward Efficient Kernel-Based Solvers for Nonlinear PDEs [19.975293084297014]
本稿では,非線形偏微分方程式(PDE)を効率的に解くための新しいカーネル学習フレームワークを提案する。
カーネルに微分演算子を埋め込む最先端のカーネルソルバとは対照的に,本手法ではこれらの演算子をカーネルから排除する。
我々は、標準カーネル形式を用いて解をモデル化し、導関数を計算するために補間剤を区別する。
論文 参考訳(メタデータ) (2024-10-15T01:00:43Z) - A Universal Non-Parametric Approach For Improved Molecular Sequence
Analysis [4.588028371034407]
本稿では, cipjiang2023lowをモチベーションとして, 圧縮モデルに基づく新しい手法を提案する。
我々は、GzipやBz2といったよく知られた圧縮アルゴリズムを用いて、分子配列を圧縮する。
次に、カーネル主成分分析(PCA)を用いて、対応する分子配列のベクトル表現を得る。
論文 参考訳(メタデータ) (2024-02-12T23:15:16Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - Deep Unrolling for Nonconvex Robust Principal Component Analysis [75.32013242448151]
我々はロバスト成分分析のためのアルゴリズムを設計する(A)
行列を低主行列とスパース主行列の和に分解する。
論文 参考訳(メタデータ) (2023-07-12T03:48:26Z) - BioSequence2Vec: Efficient Embedding Generation For Biological Sequences [1.0896567381206714]
本稿では,カーネルメソッドの品質を具現化する汎用表現学習手法を提案する。
提案手法は,任意の距離への入力として利用することができる。
我々はSARS-CoV-2系統や遺伝子ファミリー分類などの実世界の様々な分類タスクを行い、予測性能において最先端の埋め込みやカーネル手法よりも優れています。
論文 参考訳(メタデータ) (2023-04-01T10:58:21Z) - Tree-based Implementation of the Small Matrix Path Integral for
System-Bath Dynamics [0.0]
t-SMatPIアルゴリズムは、定義に基づいて、カーネル行列の簡単な計算よりもはるかに高速であることが示されている。
本手法は,開量子系の新しい性質を示し,高次数値スキームに一般化する可能性を持つ。
論文 参考訳(メタデータ) (2022-07-24T22:21:10Z) - Adaptive Explicit Kernel Minkowski Weighted K-means [1.3535770763481905]
カーネル K-平均は、K-平均をカーネル空間に拡張し、非線形構造を捉えることができ、任意の形状のクラスターを識別することができる。
本稿では, 線形および非線形アプローチの利点を, 駆動された対応する有限次元特徴写像を用いて組み合わせる手法を提案する。
論文 参考訳(メタデータ) (2020-12-04T19:14:09Z) - Kernel learning approaches for summarising and combining posterior
similarity matrices [68.8204255655161]
我々は,ベイズクラスタリングモデルに対するMCMCアルゴリズムの出力を要約するための新しいアプローチを提案するために,後部類似性行列(PSM)の概念を構築した。
我々の研究の重要な貢献は、PSMが正の半定値であり、したがって確率的に動機付けられたカーネル行列を定義するのに使用できることである。
論文 参考訳(メタデータ) (2020-09-27T14:16:14Z) - SimpleMKKM: Simple Multiple Kernel K-means [49.500663154085586]
単純なマルチカーネルk-means(SimpleMKKM)と呼ばれる,単純で効果的なマルチカーネルクラスタリングアルゴリズムを提案する。
我々の基準は、カーネル係数とクラスタリング分割行列における難解な最小化最大化問題によって与えられる。
クラスタリング一般化誤差の観点から,SimpleMKKMの性能を理論的に解析する。
論文 参考訳(メタデータ) (2020-05-11T10:06:40Z) - Augmentation of the Reconstruction Performance of Fuzzy C-Means with an
Optimized Fuzzification Factor Vector [99.19847674810079]
Fuzzy C-Means (FCM) は情報グラニュラーを構成する最も頻繁に使用される手法の1つである。
本稿では, ファジィ化因子のベクトルを導入することにより, FCMに基づく脱顆粒機構を増強する。
合成データセットと公開データセットの両方で実験が完了し、提案手法が汎用データ再構成手法より優れていることが示された。
論文 参考訳(メタデータ) (2020-04-13T04:17:30Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。