Fugu-MT 論文翻訳(概要): A Universal Non-Parametric Approach For Improved Molecular Sequence Analysis

論文の概要: A Universal Non-Parametric Approach For Improved Molecular Sequence Analysis

arxiv url: http://arxiv.org/abs/2402.08117v1
Date: Mon, 12 Feb 2024 23:15:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 17:05:31.139120
Title: A Universal Non-Parametric Approach For Improved Molecular Sequence Analysis
Title（参考訳）: 分子配列解析における普遍的非パラメトリックアプローチ
Authors: Sarwan Ali, Tamkanat E Ali, Prakash Chourasia, Murray Patterson
Abstract要約: 本稿では, cipjiang2023lowをモチベーションとして, 圧縮モデルに基づく新しい手法を提案する。我々は、GzipやBz2といったよく知られた圧縮アルゴリズムを用いて、分子配列を圧縮する。次に、カーネル主成分分析(PCA)を用いて、対応する分子配列のベクトル表現を得る。
参考スコア（独自算出の注目度）: 4.588028371034407
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In the field of biological research, it is essential to comprehend the characteristics and functions of molecular sequences. The classification of molecular sequences has seen widespread use of neural network-based techniques. Despite their astounding accuracy, these models often require a substantial number of parameters and more data collection. In this work, we present a novel approach based on the compression-based Model, motivated from \cite{jiang2023low}, which combines the simplicity of basic compression algorithms like Gzip and Bz2, with Normalized Compression Distance (NCD) algorithm to achieve better performance on classification tasks without relying on handcrafted features or pre-trained models. Firstly, we compress the molecular sequence using well-known compression algorithms, such as Gzip and Bz2. By leveraging the latent structure encoded in compressed files, we compute the Normalized Compression Distance between each pair of molecular sequences, which is derived from the Kolmogorov complexity. This gives us a distance matrix, which is the input for generating a kernel matrix using a Gaussian kernel. Next, we employ kernel Principal Component Analysis (PCA) to get the vector representations for the corresponding molecular sequence, capturing important structural and functional information. The resulting vector representations provide an efficient yet effective solution for molecular sequence analysis and can be used in ML-based downstream tasks. The proposed approach eliminates the need for computationally intensive Deep Neural Networks (DNNs), with their large parameter counts and data requirements. Instead, it leverages a lightweight and universally accessible compression-based model.
Abstract（参考訳）: 生物学的研究の分野では、分子配列の特徴と機能を理解することが不可欠である。分子配列の分類は、ニューラルネットワークに基づく技術が広く利用されている。驚くべき精度にもかかわらず、これらのモデルはかなりの数のパラメータとより多くのデータ収集を必要とする。本稿では,Gzip や Bz2 などの基本的な圧縮アルゴリズムと正規化圧縮距離 (NCD) アルゴリズムを組み合わせることで,手作りの特徴や事前訓練されたモデルに頼らずに,分類タスクにおけるより良い性能を実現する,圧縮ベースモデルに基づく新しい手法を提案する。まず、gzipやbz2といったよく知られた圧縮アルゴリズムを用いて分子配列を圧縮する。圧縮されたファイルに符号化された潜伏構造を利用して、コルモゴロフ複雑性から導かれる各分子配列間の正規化圧縮距離を計算する。これにより距離行列が得られ、これはガウス核を用いてカーネル行列を生成するための入力となる。次に、カーネル主成分分析(PCA)を用いて、対応する分子配列のベクトル表現を取得し、重要な構造情報と機能情報を取得する。結果として得られるベクトル表現は、分子配列解析の効率的かつ効果的な解であり、MLベースの下流タスクで使用できる。提案手法では,パラメータ数とデータ要求が大きいため,計算集約型ディープニューラルネットワーク(DNN)の必要性を排除している。代わりに軽量で汎用的な圧縮ベースモデルを採用している。

関連論文リスト

DiffMS: Diffusion Generation of Molecules Conditioned on Mass Spectra [60.39311767532607]
DiffMSは式制限エンコーダ-デコーダ生成ネットワークである。我々は、潜伏埋め込みと分子構造を橋渡しする頑健なデコーダを開発する。実験の結果、DiffMS は $textitde novo$ 分子生成で既存のモデルより優れていることが示された。
論文参考訳（メタデータ） (2025-02-13T18:29:48Z)
Hilbert Curve Based Molecular Sequence Analysis [2.949890760187898]
ヒベルト曲線に基づくカオスゲーム表現法(CGR)を提案する。この方法は、分子配列からヒルベルト曲線に基づく画像表現を構築するのに使用される新しいAlphabetic index mapping技術を含む変換関数である。肺がんデータセット上でCNNモデルを用いて試験した場合,94.5$%,F1スコアが9,3.9%と高い精度を達成し,現在最先端の手法を上回り,有望な結果を示す。
論文参考訳（メタデータ） (2024-12-29T23:26:43Z)
Computing Gram Matrix for SMILES Strings using RDKFingerprint and Sinkhorn-Knopp Algorithm [3.9146761527401424]
分子構造データでは、SMILES (Simplified Molecular Input Line Entry System) 文字列を用いて分子構造設計を分析する。本研究では、SMILES文字列から分子構造を符号化・解析するためのカーネルベースのアプローチを提案する。
論文参考訳（メタデータ） (2024-12-19T10:31:25Z)
Investigating Graph Neural Networks and Classical Feature-Extraction Techniques in Activity-Cliff and Molecular Property Prediction [0.6906005491572401]
分子の破滅は、分子データの数値的特徴ベクトルへの変換を指す。分子グラフから直接識別可能な特徴を学習する新しい手法として、メッセージパッシンググラフニューラルネットワーク(GNN)が登場した。
論文参考訳（メタデータ） (2024-11-20T20:07:48Z)
Quantization of Large Language Models with an Overdetermined Basis [73.79368761182998]
本稿では,嘉心表現の原理に基づくデータ量子化アルゴリズムを提案する。以上の結果から, カシ量子化はモデル性能の競争力や優れた品質を達成できることが示唆された。
論文参考訳（メタデータ） (2024-04-15T12:38:46Z)
HD-Bind: Encoding of Molecular Structure with Low Precision, Hyperdimensional Binary Representations [3.3934198248179026]
超次元計算(HDC)は、低精度二進ベクトル算術を活用できる学習パラダイムである。本稿では,HDCに基づく推論手法が,より複雑な機械学習手法よりも90倍効率が高いことを示す。
論文参考訳（メタデータ） (2023-03-27T21:21:46Z)
Multiresolution Graph Transformers and Wavelet Positional Encoding for Learning Hierarchical Structures [6.875312133832078]
複数のスケールで大きな分子を表現できる最初のグラフトランスアーキテクチャであるMulti resolution Graph Transformer (MGT)を提案する。 MGTは原子の表現を学習し、それらを有意義な官能基または繰り返し単位に分類することができる。提案モデルでは, 高分子とペプチドからなるマクロ分子データセットと, 薬物様分子データセットの2つの結果を得た。
論文参考訳（メタデータ） (2023-02-17T01:32:44Z)
Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。 RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文参考訳（メタデータ） (2022-10-21T15:56:13Z)
COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文参考訳（メタデータ） (2022-01-30T20:12:04Z)
On minimizers and convolutional filters: theoretical connections and applications to genome analysis [2.8282906214258805]
CNNはさまざまなランダムな畳み込みフィルタから始まり、プール操作と組み合わせ、さらに複数のニューラルネットワーク層を追加して、フィルタ自体とシーケンスの分類方法を学ぶ。実験実験では、この性質はシミュレーションと実際のヒトテロメアの両方において繰り返し領域における密度の低下として現れることがわかった。我々は、SARS-CoV-2ゲノムから合成短冊を3次元ユークリッド空間に埋め込んだCNNをスクラッチからトレーニングし、読み出し元の線形配列距離を局所的に再カプセル化する。
論文参考訳（メタデータ） (2021-11-09T19:02:04Z)
Even more efficient quantum computations of chemistry through tensor hypercontraction [0.6234350105794442]
量子化学ハミルトニアンのスペクトルを$N$任意の軌道で符号化するトフォリ複雑性を$widetildecal O(N)$で記述する。これは、任意の基底で化学の量子計算で示された最も低い複雑性である。
論文参考訳（メタデータ） (2020-11-06T18:03:29Z)
Connecting Weighted Automata, Tensor Networks and Recurrent Neural Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-10-19T15:28:00Z)
MIMOSA: Multi-constraint Molecule Sampling for Molecule Optimization [51.00815310242277]
生成モデルと強化学習アプローチは、最初の成功をおさめたが、複数の薬物特性を同時に最適化する上で、依然として困難に直面している。本稿では,MultI-Constraint MOlecule SAmpling (MIMOSA)アプローチ,初期推定として入力分子を用いるサンプリングフレームワーク,ターゲット分布からのサンプル分子を提案する。
論文参考訳（メタデータ） (2020-10-05T20:18:42Z)
Multipole Graph Neural Operator for Parametric Partial Differential Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文参考訳（メタデータ） (2020-06-16T21:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。