論文の概要: A Universal Non-Parametric Approach For Improved Molecular Sequence
Analysis
- arxiv url: http://arxiv.org/abs/2402.08117v1
- Date: Mon, 12 Feb 2024 23:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:05:31.139120
- Title: A Universal Non-Parametric Approach For Improved Molecular Sequence
Analysis
- Title(参考訳): 分子配列解析における普遍的非パラメトリックアプローチ
- Authors: Sarwan Ali, Tamkanat E Ali, Prakash Chourasia, Murray Patterson
- Abstract要約: 本稿では, cipjiang2023lowをモチベーションとして, 圧縮モデルに基づく新しい手法を提案する。
我々は、GzipやBz2といったよく知られた圧縮アルゴリズムを用いて、分子配列を圧縮する。
次に、カーネル主成分分析(PCA)を用いて、対応する分子配列のベクトル表現を得る。
- 参考スコア(独自算出の注目度): 4.588028371034407
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the field of biological research, it is essential to comprehend the
characteristics and functions of molecular sequences. The classification of
molecular sequences has seen widespread use of neural network-based techniques.
Despite their astounding accuracy, these models often require a substantial
number of parameters and more data collection. In this work, we present a novel
approach based on the compression-based Model, motivated from
\cite{jiang2023low}, which combines the simplicity of basic compression
algorithms like Gzip and Bz2, with Normalized Compression Distance (NCD)
algorithm to achieve better performance on classification tasks without relying
on handcrafted features or pre-trained models. Firstly, we compress the
molecular sequence using well-known compression algorithms, such as Gzip and
Bz2. By leveraging the latent structure encoded in compressed files, we compute
the Normalized Compression Distance between each pair of molecular sequences,
which is derived from the Kolmogorov complexity. This gives us a distance
matrix, which is the input for generating a kernel matrix using a Gaussian
kernel. Next, we employ kernel Principal Component Analysis (PCA) to get the
vector representations for the corresponding molecular sequence, capturing
important structural and functional information. The resulting vector
representations provide an efficient yet effective solution for molecular
sequence analysis and can be used in ML-based downstream tasks. The proposed
approach eliminates the need for computationally intensive Deep Neural Networks
(DNNs), with their large parameter counts and data requirements. Instead, it
leverages a lightweight and universally accessible compression-based model.
- Abstract(参考訳): 生物学的研究の分野では、分子配列の特徴と機能を理解することが不可欠である。
分子配列の分類は、ニューラルネットワークに基づく技術が広く利用されている。
驚くべき精度にもかかわらず、これらのモデルはかなりの数のパラメータとより多くのデータ収集を必要とする。
本稿では,Gzip や Bz2 などの基本的な圧縮アルゴリズムと正規化圧縮距離 (NCD) アルゴリズムを組み合わせることで,手作りの特徴や事前訓練されたモデルに頼らずに,分類タスクにおけるより良い性能を実現する,圧縮ベースモデルに基づく新しい手法を提案する。
まず、gzipやbz2といったよく知られた圧縮アルゴリズムを用いて分子配列を圧縮する。
圧縮されたファイルに符号化された潜伏構造を利用して、コルモゴロフ複雑性から導かれる各分子配列間の正規化圧縮距離を計算する。
これにより距離行列が得られ、これはガウス核を用いてカーネル行列を生成するための入力となる。
次に、カーネル主成分分析(PCA)を用いて、対応する分子配列のベクトル表現を取得し、重要な構造情報と機能情報を取得する。
結果として得られるベクトル表現は、分子配列解析の効率的かつ効果的な解であり、MLベースの下流タスクで使用できる。
提案手法では,パラメータ数とデータ要求が大きいため,計算集約型ディープニューラルネットワーク(DNN)の必要性を排除している。
代わりに軽量で汎用的な圧縮ベースモデルを採用している。
関連論文リスト
- DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
DiffMSは式制限エンコーダ-デコーダ生成ネットワークである。
我々は、潜伏埋め込みと分子構造を橋渡しする頑健なデコーダを開発する。
実験の結果、DiffMS は $textitde novo$ 分子生成で既存のモデルより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:29:48Z) - Hilbert Curve Based Molecular Sequence Analysis [2.949890760187898]
ヒベルト曲線に基づくカオスゲーム表現法(CGR)を提案する。
この方法は、分子配列からヒルベルト曲線に基づく画像表現を構築するのに使用される新しいAlphabetic index mapping技術を含む変換関数である。
肺がんデータセット上でCNNモデルを用いて試験した場合,94.5$%,F1スコアが9,3.9%と高い精度を達成し,現在最先端の手法を上回り,有望な結果を示す。
論文 参考訳(メタデータ) (2024-12-29T23:26:43Z) - Computing Gram Matrix for SMILES Strings using RDKFingerprint and Sinkhorn-Knopp Algorithm [3.9146761527401424]
分子構造データでは、SMILES (Simplified Molecular Input Line Entry System) 文字列を用いて分子構造設計を分析する。
本研究では、SMILES文字列から分子構造を符号化・解析するためのカーネルベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-19T10:31:25Z) - Investigating Graph Neural Networks and Classical Feature-Extraction Techniques in Activity-Cliff and Molecular Property Prediction [0.6906005491572401]
分子の破滅は、分子データの数値的特徴ベクトルへの変換を指す。
分子グラフから直接識別可能な特徴を学習する新しい手法として、メッセージパッシンググラフニューラルネットワーク(GNN)が登場した。
論文 参考訳(メタデータ) (2024-11-20T20:07:48Z) - Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - HD-Bind: Encoding of Molecular Structure with Low Precision,
Hyperdimensional Binary Representations [3.3934198248179026]
超次元計算(HDC)は、低精度二進ベクトル算術を活用できる学習パラダイムである。
本稿では,HDCに基づく推論手法が,より複雑な機械学習手法よりも90倍効率が高いことを示す。
論文 参考訳(メタデータ) (2023-03-27T21:21:46Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - Even more efficient quantum computations of chemistry through tensor
hypercontraction [0.6234350105794442]
量子化学ハミルトニアンのスペクトルを$N$任意の軌道で符号化するトフォリ複雑性を$widetildecal O(N)$で記述する。
これは、任意の基底で化学の量子計算で示された最も低い複雑性である。
論文 参考訳(メタデータ) (2020-11-06T18:03:29Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。