論文の概要: NLP Meets RNA: Unsupervised Embedding Learning for Ribozymes with
Word2Vec
- arxiv url: http://arxiv.org/abs/2307.05537v1
- Date: Sat, 8 Jul 2023 15:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 16:26:32.188731
- Title: NLP Meets RNA: Unsupervised Embedding Learning for Ribozymes with
Word2Vec
- Title(参考訳): NLPとRNA: Word2Vecによるリボザイムの非教師なし埋め込み学習
- Authors: Andrew Kean Gao
- Abstract要約: 本研究では,自然言語処理の教師なし学習手法であるWord2Vecを実装し,リボザイムの埋め込みを学習する。
Ribo2Vecは9000以上の多様なリボザイムで訓練され、配列を128次元および256次元のベクトル空間にマッピングすることを学んだ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Ribozymes, RNA molecules with distinct 3D structures and catalytic activity,
have widespread applications in synthetic biology and therapeutics. However,
relatively little research has focused on leveraging deep learning to enhance
our understanding of ribozymes. This study implements Word2Vec, an unsupervised
learning technique for natural language processing, to learn ribozyme
embeddings. Ribo2Vec was trained on over 9,000 diverse ribozymes, learning to
map sequences to 128 and 256-dimensional vector spaces. Using Ribo2Vec,
sequence embeddings for five classes of ribozymes (hatchet, pistol, hairpin,
hovlinc, and twister sister) were calculated. Principal component analysis
demonstrated the ability of these embeddings to distinguish between ribozyme
classes. Furthermore, a simple SVM classifier trained on ribozyme embeddings
showed promising results in accurately classifying ribozyme types. Our results
suggest that the embedding vectors contained meaningful information about
ribozymes. Interestingly, 256-dimensional embeddings behaved similarly to
128-dimensional embeddings, suggesting that a lower dimension vector space is
generally sufficient to capture ribozyme features. This approach demonstrates
the potential of Word2Vec for bioinformatics, opening new avenues for ribozyme
research. Future research includes using a Transformer-based method to learn
RNA embeddings, which can capture long-range interactions between nucleotides.
- Abstract(参考訳): 異なる3D構造と触媒活性を持つRNA分子であるリボザイムは、合成生物学や治療に広く応用されている。
しかし、リボザイムの理解を深めるためにディープラーニングを活用する研究は、比較的少ない。
本研究は,自然言語処理のための教師なし学習手法であるword2vecを実装し,リボザイム埋め込みを学習する。
Ribo2Vecは9000以上の多様なリボザイムで訓練され、配列を128次元および256次元のベクトル空間にマッピングすることを学んだ。
Ribo2Vecを用いて5種類のリボザイム(ハッチェ、ピストル、ヘアピン、ホブリンク、ツイスター姉妹)の配列埋め込みを計算した。
主成分分析はリボザイムのクラスを区別するこれらの埋め込みの能力を示した。
さらに、リボザイムの埋め込みを訓練した単純なSVM分類器は、リボザイムの型を正確に分類する有望な結果を示した。
以上の結果から,組込みベクターにはリボザイムに関する有意な情報が含まれていることが示唆された。
興味深いことに、256次元の埋め込みは128次元の埋め込みと同様に振舞い、より低次元のベクトル空間が一般的にリボザイムの特徴を捉えるのに十分であることを示す。
このアプローチは、バイオインフォマティクスにおけるWord2Vecの可能性を示し、リボザイム研究の新しい道を開く。
将来の研究は、rna埋め込みを学習するためにトランスフォーマーベースの方法を使用することで、ヌクレオチド間の長距離相互作用を捉えることができる。
関連論文リスト
- Character-level Tokenizations as Powerful Inductive Biases for RNA Foundational Models [0.0]
RNAの挙動を理解し予測することは、RNAの構造と相互作用の複雑さのために困難である。
現在のRNAモデルは、タンパク質ドメインで観測された性能とはまだ一致していない。
ChaRNABERTは、確立されたベンチマークでいくつかのタスクで最先端のパフォーマンスに到達することができる。
論文 参考訳(メタデータ) (2024-11-05T21:56:16Z) - Predicting Distance matrix with large language models [1.8855270809505869]
データ制限のため、RNA構造予測は依然として重要な課題である。
核磁気共鳴分光法、X線結晶学、電子顕微鏡などの従来の手法は高価で時間を要する。
距離マップはヌクレオチド間の空間的制約を単純化し、完全な3Dモデルを必要としない本質的な関係を捉える。
論文 参考訳(メタデータ) (2024-09-24T10:28:55Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling [60.91599380893732]
VQDNAは、ゲノムボキャブラリ学習の観点からゲノムのトークン化を改良する汎用フレームワークである。
ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みに適応的にトークン化することができる。
論文 参考訳(メタデータ) (2024-05-13T20:15:03Z) - RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks [1.1764999317813143]
リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠れコードを明らかにする。
RiNALMoは、これまでで最大のRNA言語モデルであり、6億5千万のパラメータが3600万の非コーディングRNA配列で事前訓練されている。
論文 参考訳(メタデータ) (2024-02-29T14:50:58Z) - Splicing Up Your Predictions with RNA Contrastive Learning [4.35360799431127]
我々は、代替スプライシング遺伝子複製によって生成された機能配列間の類似性を利用して、対照的な学習手法をゲノムデータに拡張する。
RNA半減期やリボソーム負荷予測などの下流タスクにおけるそれらの有用性を検証する。
学習された潜在空間の探索は、我々の対照的な目的が意味論的に意味のある表現をもたらすことを示した。
論文 参考訳(メタデータ) (2023-10-12T21:51:25Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Knowledge from Large-Scale Protein Contact Prediction Models Can Be
Transferred to the Data-Scarce RNA Contact Prediction Task [40.051834115537474]
タンパク質共進化トランスフォーマーに基づくディープニューラルネットワークはRNA接触予測タスクに転送可能である。
実験により、転写学習によるRNA接触予測が大幅に改善されることが確認された。
以上の結果から, タンパク質の構造パターンはRNAに転移し, 新たな研究の道を開く可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-13T06:00:56Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z) - A Systematic Approach to Featurization for Cancer Drug Sensitivity
Predictions with Deep Learning [49.86828302591469]
35,000以上のニューラルネットワークモデルをトレーニングし、一般的な成果化技術を駆使しています。
RNA-seqは128以上のサブセットであっても非常に冗長で情報的であることがわかった。
論文 参考訳(メタデータ) (2020-04-30T20:42:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。