論文の概要: A Universal Non-Parametric Approach For Improved Molecular Sequence
Analysis
- arxiv url: http://arxiv.org/abs/2402.08117v1
- Date: Mon, 12 Feb 2024 23:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 17:05:31.139120
- Title: A Universal Non-Parametric Approach For Improved Molecular Sequence
Analysis
- Title(参考訳): 分子配列解析における普遍的非パラメトリックアプローチ
- Authors: Sarwan Ali, Tamkanat E Ali, Prakash Chourasia, Murray Patterson
- Abstract要約: 本稿では, cipjiang2023lowをモチベーションとして, 圧縮モデルに基づく新しい手法を提案する。
我々は、GzipやBz2といったよく知られた圧縮アルゴリズムを用いて、分子配列を圧縮する。
次に、カーネル主成分分析(PCA)を用いて、対応する分子配列のベクトル表現を得る。
- 参考スコア(独自算出の注目度): 4.588028371034407
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the field of biological research, it is essential to comprehend the
characteristics and functions of molecular sequences. The classification of
molecular sequences has seen widespread use of neural network-based techniques.
Despite their astounding accuracy, these models often require a substantial
number of parameters and more data collection. In this work, we present a novel
approach based on the compression-based Model, motivated from
\cite{jiang2023low}, which combines the simplicity of basic compression
algorithms like Gzip and Bz2, with Normalized Compression Distance (NCD)
algorithm to achieve better performance on classification tasks without relying
on handcrafted features or pre-trained models. Firstly, we compress the
molecular sequence using well-known compression algorithms, such as Gzip and
Bz2. By leveraging the latent structure encoded in compressed files, we compute
the Normalized Compression Distance between each pair of molecular sequences,
which is derived from the Kolmogorov complexity. This gives us a distance
matrix, which is the input for generating a kernel matrix using a Gaussian
kernel. Next, we employ kernel Principal Component Analysis (PCA) to get the
vector representations for the corresponding molecular sequence, capturing
important structural and functional information. The resulting vector
representations provide an efficient yet effective solution for molecular
sequence analysis and can be used in ML-based downstream tasks. The proposed
approach eliminates the need for computationally intensive Deep Neural Networks
(DNNs), with their large parameter counts and data requirements. Instead, it
leverages a lightweight and universally accessible compression-based model.
- Abstract(参考訳): 生物学的研究の分野では、分子配列の特徴と機能を理解することが不可欠である。
分子配列の分類は、ニューラルネットワークに基づく技術が広く利用されている。
驚くべき精度にもかかわらず、これらのモデルはかなりの数のパラメータとより多くのデータ収集を必要とする。
本稿では,Gzip や Bz2 などの基本的な圧縮アルゴリズムと正規化圧縮距離 (NCD) アルゴリズムを組み合わせることで,手作りの特徴や事前訓練されたモデルに頼らずに,分類タスクにおけるより良い性能を実現する,圧縮ベースモデルに基づく新しい手法を提案する。
まず、gzipやbz2といったよく知られた圧縮アルゴリズムを用いて分子配列を圧縮する。
圧縮されたファイルに符号化された潜伏構造を利用して、コルモゴロフ複雑性から導かれる各分子配列間の正規化圧縮距離を計算する。
これにより距離行列が得られ、これはガウス核を用いてカーネル行列を生成するための入力となる。
次に、カーネル主成分分析(PCA)を用いて、対応する分子配列のベクトル表現を取得し、重要な構造情報と機能情報を取得する。
結果として得られるベクトル表現は、分子配列解析の効率的かつ効果的な解であり、MLベースの下流タスクで使用できる。
提案手法では,パラメータ数とデータ要求が大きいため,計算集約型ディープニューラルネットワーク(DNN)の必要性を排除している。
代わりに軽量で汎用的な圧縮ベースモデルを採用している。
関連論文リスト
- Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。
以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T12:38:46Z) - HD-Bind: Encoding of Molecular Structure with Low Precision,
Hyperdimensional Binary Representations [3.3934198248179026]
超次元計算(HDC)は、低精度二進ベクトル算術を活用できる学習パラダイムである。
本稿では,HDCに基づく推論手法が,より複雑な機械学習手法よりも90倍効率が高いことを示す。
論文 参考訳(メタデータ) (2023-03-27T21:21:46Z) - Multiresolution Graph Transformers and Wavelet Positional Encoding for
Learning Hierarchical Structures [6.875312133832078]
複数のスケールで大きな分子を表現できる最初のグラフトランスアーキテクチャであるMulti resolution Graph Transformer (MGT)を提案する。
MGTは原子の表現を学習し、それらを有意義な官能基または繰り返し単位に分類することができる。
提案モデルでは, 高分子とペプチドからなるマクロ分子データセットと, 薬物様分子データセットの2つの結果を得た。
論文 参考訳(メタデータ) (2023-02-17T01:32:44Z) - Linear-scaling kernels for protein sequences and small molecules
outperform deep learning while providing uncertainty quantitation and
improved interpretability [5.623232537411766]
我々はGPモデルと高速畳み込みカーネルに適合する効率的でスケーラブルなアプローチを開発した。
xGPRと呼ばれるオープンソースのPythonライブラリを構築することで、これらの改善を実現しています。
xGPRは一般に、タンパク質や小分子の重要な性質を予測する上で、畳み込みニューラルネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-07T07:06:02Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - On minimizers and convolutional filters: theoretical connections and
applications to genome analysis [2.8282906214258805]
CNNはさまざまなランダムな畳み込みフィルタから始まり、プール操作と組み合わせ、さらに複数のニューラルネットワーク層を追加して、フィルタ自体とシーケンスの分類方法を学ぶ。
実験実験では、この性質はシミュレーションと実際のヒトテロメアの両方において繰り返し領域における密度の低下として現れることがわかった。
我々は、SARS-CoV-2ゲノムから合成短冊を3次元ユークリッド空間に埋め込んだCNNをスクラッチからトレーニングし、読み出し元の線形配列距離を局所的に再カプセル化する。
論文 参考訳(メタデータ) (2021-11-09T19:02:04Z) - Even more efficient quantum computations of chemistry through tensor
hypercontraction [0.6234350105794442]
量子化学ハミルトニアンのスペクトルを$N$任意の軌道で符号化するトフォリ複雑性を$widetildecal O(N)$で記述する。
これは、任意の基底で化学の量子計算で示された最も低い複雑性である。
論文 参考訳(メタデータ) (2020-11-06T18:03:29Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z) - MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [66.84839948236478]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。
本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文 参考訳(メタデータ) (2020-10-05T20:18:42Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。