論文の概要: NLP Meets RNA: Unsupervised Embedding Learning for Ribozymes with
Word2Vec
- arxiv url: http://arxiv.org/abs/2307.05537v1
- Date: Sat, 8 Jul 2023 15:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 16:26:32.188731
- Title: NLP Meets RNA: Unsupervised Embedding Learning for Ribozymes with
Word2Vec
- Title(参考訳): NLPとRNA: Word2Vecによるリボザイムの非教師なし埋め込み学習
- Authors: Andrew Kean Gao
- Abstract要約: 本研究では,自然言語処理の教師なし学習手法であるWord2Vecを実装し,リボザイムの埋め込みを学習する。
Ribo2Vecは9000以上の多様なリボザイムで訓練され、配列を128次元および256次元のベクトル空間にマッピングすることを学んだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Ribozymes, RNA molecules with distinct 3D structures and catalytic activity,
have widespread applications in synthetic biology and therapeutics. However,
relatively little research has focused on leveraging deep learning to enhance
our understanding of ribozymes. This study implements Word2Vec, an unsupervised
learning technique for natural language processing, to learn ribozyme
embeddings. Ribo2Vec was trained on over 9,000 diverse ribozymes, learning to
map sequences to 128 and 256-dimensional vector spaces. Using Ribo2Vec,
sequence embeddings for five classes of ribozymes (hatchet, pistol, hairpin,
hovlinc, and twister sister) were calculated. Principal component analysis
demonstrated the ability of these embeddings to distinguish between ribozyme
classes. Furthermore, a simple SVM classifier trained on ribozyme embeddings
showed promising results in accurately classifying ribozyme types. Our results
suggest that the embedding vectors contained meaningful information about
ribozymes. Interestingly, 256-dimensional embeddings behaved similarly to
128-dimensional embeddings, suggesting that a lower dimension vector space is
generally sufficient to capture ribozyme features. This approach demonstrates
the potential of Word2Vec for bioinformatics, opening new avenues for ribozyme
research. Future research includes using a Transformer-based method to learn
RNA embeddings, which can capture long-range interactions between nucleotides.
- Abstract(参考訳): 異なる3D構造と触媒活性を持つRNA分子であるリボザイムは、合成生物学や治療に広く応用されている。
しかし、リボザイムの理解を深めるためにディープラーニングを活用する研究は、比較的少ない。
本研究は,自然言語処理のための教師なし学習手法であるword2vecを実装し,リボザイム埋め込みを学習する。
Ribo2Vecは9000以上の多様なリボザイムで訓練され、配列を128次元および256次元のベクトル空間にマッピングすることを学んだ。
Ribo2Vecを用いて5種類のリボザイム(ハッチェ、ピストル、ヘアピン、ホブリンク、ツイスター姉妹)の配列埋め込みを計算した。
主成分分析はリボザイムのクラスを区別するこれらの埋め込みの能力を示した。
さらに、リボザイムの埋め込みを訓練した単純なSVM分類器は、リボザイムの型を正確に分類する有望な結果を示した。
以上の結果から,組込みベクターにはリボザイムに関する有意な情報が含まれていることが示唆された。
興味深いことに、256次元の埋め込みは128次元の埋め込みと同様に振舞い、より低次元のベクトル空間が一般的にリボザイムの特徴を捉えるのに十分であることを示す。
このアプローチは、バイオインフォマティクスにおけるWord2Vecの可能性を示し、リボザイム研究の新しい道を開く。
将来の研究は、rna埋め込みを学習するためにトランスフォーマーベースの方法を使用することで、ヌクレオチド間の長距離相互作用を捉えることができる。
関連論文リスト
- RiNALMo: General-Purpose RNA Language Models Can Generalize Well on
Structure Prediction Tasks [1.2466379414976048]
リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠されたコードを明らかにする。
RiNALMoは、これまでで最大のRNAモデルであり、600万ドルの非コーディングRNA配列で事前訓練された650ドルのパラメータを持つ。
論文 参考訳(メタデータ) (2024-02-29T14:50:58Z) - Splicing Up Your Predictions with RNA Contrastive Learning [4.35360799431127]
我々は、代替スプライシング遺伝子複製によって生成された機能配列間の類似性を利用して、対照的な学習手法をゲノムデータに拡張する。
RNA半減期やリボソーム負荷予測などの下流タスクにおけるそれらの有用性を検証する。
学習された潜在空間の探索は、我々の対照的な目的が意味論的に意味のある表現をもたらすことを示した。
論文 参考訳(メタデータ) (2023-10-12T21:51:25Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Knowledge from Large-Scale Protein Contact Prediction Models Can Be
Transferred to the Data-Scarce RNA Contact Prediction Task [40.051834115537474]
タンパク質共進化トランスフォーマーに基づくディープニューラルネットワークはRNA接触予測タスクに転送可能である。
実験により、転写学習によるRNA接触予測が大幅に改善されることが確認された。
以上の結果から, タンパク質の構造パターンはRNAに転移し, 新たな研究の道を開く可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-13T06:00:56Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - Machine learning for plant microRNA prediction: A systematic review [0.0]
マイクロRNA(miRNA)は内在性の小さな非コードRNAであり、遺伝子調節に重要な役割を果たしている。
計算と機械学習に基づくアプローチがマイクロRNAの予測に採用されている。
本研究は,植物における識別のために開発された機械学習手法に焦点をあてる。
論文 参考訳(メタデータ) (2021-06-29T08:22:57Z) - Visualizing hierarchies in scRNA-seq data using a density tree-biased
autoencoder [50.591267188664666]
本研究では,高次元scRNA-seqデータから意味のある木構造を同定する手法を提案する。
次に、低次元空間におけるデータのツリー構造を強調する木バイアスオートエンコーダDTAEを紹介する。
論文 参考訳(メタデータ) (2021-02-11T08:48:48Z) - Neural networks for Anatomical Therapeutic Chemical (ATC) [83.73971067918333]
両方向の長期記憶ネットワーク(BiLSTM)から抽出された集合を含む、特徴の異なるセットで訓練された複数の複数ラベル分類器を組み合わせることを提案する。
実験はこのアプローチのパワーを実証し、文献で報告された最良の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2021-01-22T19:49:47Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。