論文の概要: Hilbert Curve Based Molecular Sequence Analysis
- arxiv url: http://arxiv.org/abs/2412.20616v1
- Date: Sun, 29 Dec 2024 23:26:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:04:13.986888
- Title: Hilbert Curve Based Molecular Sequence Analysis
- Title(参考訳): ヒルベルト曲線に基づく分子配列解析
- Authors: Sarwan Ali, Tamkanat E Ali, Imdad Ullah Khan, Murray Patterson,
- Abstract要約: ヒベルト曲線に基づくカオスゲーム表現法(CGR)を提案する。
この方法は、分子配列からヒルベルト曲線に基づく画像表現を構築するのに使用される新しいAlphabetic index mapping技術を含む変換関数である。
肺がんデータセット上でCNNモデルを用いて試験した場合,94.5$%,F1スコアが9,3.9%と高い精度を達成し,現在最先端の手法を上回り,有望な結果を示す。
- 参考スコア(独自算出の注目度): 2.949890760187898
- License:
- Abstract: Accurate molecular sequence analysis is a key task in the field of bioinformatics. To apply molecular sequence classification algorithms, we first need to generate the appropriate representations of the sequences. Traditional numeric sequence representation techniques are mostly based on sequence alignment that faces limitations in the form of lack of accuracy. Although several alignment-free techniques have also been introduced, their tabular data form results in low performance when used with Deep Learning (DL) models compared to the competitive performance observed in the case of image-based data. To find a solution to this problem and to make Deep Learning (DL) models function to their maximum potential while capturing the important spatial information in the sequence data, we propose a universal Hibert curve-based Chaos Game Representation (CGR) method. This method is a transformative function that involves a novel Alphabetic index mapping technique used in constructing Hilbert curve-based image representation from molecular sequences. Our method can be globally applied to any type of molecular sequence data. The Hilbert curve-based image representations can be used as input to sophisticated vision DL models for sequence classification. The proposed method shows promising results as it outperforms current state-of-the-art methods by achieving a high accuracy of $94.5$\% and an F1 score of $93.9\%$ when tested with the CNN model on the lung cancer dataset. This approach opens up a new horizon for exploring molecular sequence analysis using image classification methods.
- Abstract(参考訳): 正確な分子配列解析はバイオインフォマティクスの分野における重要な課題である。
分子配列分類アルゴリズムを適用するためには、まず、配列の適切な表現を生成する必要がある。
従来の数値シーケンス表現技術は主に、精度の欠如という形で制限に直面したシーケンスアライメントに基づいている。
いくつかのアライメントフリー技術も導入されているが、その表形式のデータ形式は、画像ベースデータの場合の競合性能と比較して、ディープラーニング(DL)モデルを使用する場合の低いパフォーマンスをもたらす。
この問題に対する解決策を見つけ,シーケンスデータ中の重要な空間情報をキャプチャしながら,Deep Learning(DL)モデルを最大限のポテンシャルに機能させるために,Hybert曲線に基づくカオスゲーム表現(CGR)法を提案する。
この方法は、分子配列からヒルベルト曲線に基づく画像表現を構築するのに使用される新しいAlphabetic index mapping技術を含む変換関数である。
我々の手法はあらゆる種類の分子配列データに適用できる。
ヒルベルト曲線に基づく画像表現は、シーケンス分類のための高度な視覚DLモデルの入力として使用できる。
肺がんデータセット上でCNNモデルを用いて試験した場合,94.5$\%,F1スコア93.9\%を高い精度で達成し,最先端の手法よりも優れた結果が得られた。
このアプローチは、画像分類法を用いて分子配列解析を探索するための新たな地平を開く。
関連論文リスト
- Pre-trained Molecular Language Models with Random Functional Group Masking [54.900360309677794]
SMILESをベースとしたアンダーリネム分子アンダーリネム言語アンダーリネムモデルを提案し,特定の分子原子に対応するSMILESサブシーケンスをランダムにマスキングする。
この技術は、モデルに分子構造や特性をよりよく推測させ、予測能力を高めることを目的としている。
論文 参考訳(メタデータ) (2024-11-03T01:56:15Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Conditionally-Conjugate Gaussian Process Factor Analysis for Spike Count Data via Data Augmentation [8.114880112033644]
近年、GPFAはスパイクカウントデータをモデル化するために拡張されている。
本稿では,解析的および計算的抽出可能な推論が可能な条件共役型ガウス過程因子解析(ccGPFA)を提案する。
論文 参考訳(メタデータ) (2024-05-19T21:53:36Z) - A Universal Non-Parametric Approach For Improved Molecular Sequence
Analysis [4.588028371034407]
本稿では, cipjiang2023lowをモチベーションとして, 圧縮モデルに基づく新しい手法を提案する。
我々は、GzipやBz2といったよく知られた圧縮アルゴリズムを用いて、分子配列を圧縮する。
次に、カーネル主成分分析(PCA)を用いて、対応する分子配列のベクトル表現を得る。
論文 参考訳(メタデータ) (2024-02-12T23:15:16Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Dynamic multi feature-class Gaussian process models [0.0]
本研究では, 医用画像における形状, ポーズ, 強度特徴の自動学習のための統計的モデリング手法を提案する。
DMFC-GPM (DMFC-GPM) はガウス過程(GP)に基づくモデルであり、線形および非線形の変動を符号化する潜在空間を共有する。
モデル性能の結果は、この新しいモデリングパラダイムが堅牢で、正確で、アクセス可能であり、潜在的な応用があることを示唆している。
論文 参考訳(メタデータ) (2021-12-08T15:12:47Z) - Regularization of Mixture Models for Robust Principal Graph Learning [0.0]
D$次元データポイントの分布から主グラフを学習するために,Mixture Modelsの正規化バージョンを提案する。
モデルのパラメータは期待最大化手順によって反復的に推定される。
論文 参考訳(メタデータ) (2021-06-16T18:00:02Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。