論文の概要: Character-level Tokenizations as Powerful Inductive Biases for RNA Foundational Models
- arxiv url: http://arxiv.org/abs/2411.11808v1
- Date: Tue, 05 Nov 2024 21:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-24 05:33:18.241886
- Title: Character-level Tokenizations as Powerful Inductive Biases for RNA Foundational Models
- Title(参考訳): RNA基礎モデルのための強力な誘導的ビアーゼとしてのキャラクタレベルトークン化
- Authors: Adrián Morales-Pastor, Raquel Vázquez-Reza, Miłosz Wieczór, Clàudia Valverde, Manel Gil-Sorribes, Bertran Miquel-Oliver, Álvaro Ciudad, Alexis Molina,
- Abstract要約: RNAの挙動を理解し予測することは、RNAの構造と相互作用の複雑さのために困難である。
現在のRNAモデルは、タンパク質ドメインで観測された性能とはまだ一致していない。
ChaRNABERTは、確立されたベンチマークでいくつかのタスクで最先端のパフォーマンスに到達することができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: RNA is a vital biomolecule with numerous roles and functions within cells, and interest in targeting it for therapeutic purposes has grown significantly in recent years. However, fully understanding and predicting RNA behavior, particularly for applications in drug discovery, remains a challenge due to the complexity of RNA structures and interactions. While foundational models in biology have demonstrated success in modeling several biomolecules, especially proteins, achieving similar breakthroughs for RNA has proven more difficult. Current RNA models have yet to match the performance observed in the protein domain, leaving an important gap in computational biology. In this work, we present ChaRNABERT, a suite of sample and parameter-efficient RNA foundational models, that through a learnable tokenization process, are able to reach state-of-the-art performance on several tasks in established benchmarks. We extend its testing in relevant downstream tasks such as RNA-protein and aptamer-protein interaction prediction. Weights and inference code for ChaRNABERT-8M will be provided for academic research use. The other models will be available upon request.
- Abstract(参考訳): RNAは、細胞内で多くの役割と機能を持つ重要な生体分子であり、治療目的に標的にすることへの関心は近年大きく成長している。
しかし、特に薬物発見への応用において、RNAの挙動を完全に理解し予測することは、RNA構造と相互作用の複雑さのために依然として課題である。
生物学の基礎モデルでは、いくつかの生体分子、特にタンパク質をモデル化することに成功したが、RNAの同様のブレークスルーを達成することはより困難であることが証明されている。
現在のRNAモデルは、タンパク質ドメインで観測された性能とはまだ一致せず、計算生物学において重要なギャップを残している。
本研究では,サンプルとパラメータ効率のよいRNA基盤モデルの組であるChaRNABERTを提案する。
我々は、RNA-タンパク質やアプタマー-タンパク質相互作用予測などの下流タスクにおけるテストを拡張した。
ChaRNABERT-8Mの重量と推算符号は学術研究用として提供される。
他のモデルは、要求に応じて提供されます。
関連論文リスト
- LoRA-BERT: a Natural Language Processing Model for Robust and Accurate Prediction of long non-coding RNAs [11.346750562942345]
長い非コードRNA(lncRNA)は多くの生物学的プロセスにおいて重要な調節因子である。
深層学習に基づくアプローチは、lncRNAを分類するために導入された。
LoRA-BERTは配列分類におけるヌクレオチドレベルの情報の重要性を捉えるように設計されている。
論文 参考訳(メタデータ) (2024-11-11T22:17:01Z) - Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - RNACG: A Universal RNA Sequence Conditional Generation model based on Flow-Matching [0.0]
本研究では,フローマッチング,すなわちRNACGに基づく普遍的なRNA配列生成モデルを開発する。
RNACGは様々な条件入力に対応でき、可搬性があり、ユーザーは条件入力のために符号化ネットワークをカスタマイズできる。
RNACGは、シーケンス生成およびプロパティ予測タスクに広範な適用性を示す。
論文 参考訳(メタデータ) (2024-07-29T09:46:46Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Machine Learning Modeling Of SiRNA Structure-Potency Relationship With
Applications Against Sars-Cov-2 Spike Gene [0.0]
薬の発見プロセスは長くて費用がかかるので、新しい薬を市場に出すのに10年近くかかります。
バイオテクノロジー、計算方法、機械学習アルゴリズムは、薬物発見を革命させ、プロセスをスピードアップし、患者の結果を改善する可能性がある。
新型コロナウイルス(COVID-19)のパンデミックは、これらの技術の可能性の認識をさらに加速し、さらに深めている。
論文 参考訳(メタデータ) (2024-01-18T23:00:34Z) - scHyena: Foundation Model for Full-Length Single-Cell RNA-Seq Analysis
in Brain [46.39828178736219]
我々はこれらの課題に対処し、脳内のscRNA-seq解析の精度を高めるために設計された基礎モデルであるscHyenaを紹介する。
scHyenaは、線形適応層、遺伝子埋め込みによる位置エンコーディング、および双方向ハイエナ演算子を備えている。
これにより、生データから情報を失うことなく、全長の scRNA-seq データを処理できる。
論文 参考訳(メタデータ) (2023-10-04T10:30:08Z) - Knowledge from Large-Scale Protein Contact Prediction Models Can Be
Transferred to the Data-Scarce RNA Contact Prediction Task [40.051834115537474]
タンパク質共進化トランスフォーマーに基づくディープニューラルネットワークはRNA接触予測タスクに転送可能である。
実験により、転写学習によるRNA接触予測が大幅に改善されることが確認された。
以上の結果から, タンパク質の構造パターンはRNAに転移し, 新たな研究の道を開く可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-13T06:00:56Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Retrieval-based Controllable Molecule Generation [63.44583084888342]
制御可能な分子生成のための検索に基づく新しいフレームワークを提案する。
我々は、与えられた設計基準を満たす分子の合成に向けて、事前学習された生成モデルを操るために、分子の小さなセットを使用します。
提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。
論文 参考訳(メタデータ) (2022-08-23T17:01:16Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Improving RNA Secondary Structure Design using Deep Reinforcement
Learning [69.63971634605797]
本稿では,RNA配列設計に強化学習を適用した新しいベンチマークを提案する。このベンチマークでは,目的関数を配列の二次構造における自由エネルギーとして定義する。
本稿では,これらのアルゴリズムに対して行うアブレーション解析の結果と,バッチ間でのアルゴリズムの性能を示すグラフを示す。
論文 参考訳(メタデータ) (2021-11-05T02:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。