論文の概要: BEACON: Benchmark for Comprehensive RNA Tasks and Language Models
- arxiv url: http://arxiv.org/abs/2406.10391v1
- Date: Fri, 14 Jun 2024 19:39:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:42:24.890561
- Title: BEACON: Benchmark for Comprehensive RNA Tasks and Language Models
- Title(参考訳): BEACON: 包括的なRNAタスクと言語モデルのためのベンチマーク
- Authors: Yuchen Ren, Zhiyuan Chen, Lifeng Qiao, Hongtai Jing, Yuchen Cai, Sheng Xu, Peng Ye, Xinzhu Ma, Siqi Sun, Hongliang Yan, Dong Yuan, Wanli Ouyang, Xihui Liu,
- Abstract要約: 本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
- 参考スコア(独自算出の注目度): 60.02663015002029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RNA plays a pivotal role in translating genetic instructions into functional outcomes, underscoring its importance in biological processes and disease mechanisms. Despite the emergence of numerous deep learning approaches for RNA, particularly universal RNA language models, there remains a significant lack of standardized benchmarks to assess the effectiveness of these methods. In this study, we introduce the first comprehensive RNA benchmark BEACON (\textbf{BE}nchm\textbf{A}rk for \textbf{CO}mprehensive R\textbf{N}A Task and Language Models). First, BEACON comprises 13 distinct tasks derived from extensive previous work covering structural analysis, functional studies, and engineering applications, enabling a comprehensive assessment of the performance of methods on various RNA understanding tasks. Second, we examine a range of models, including traditional approaches like CNNs, as well as advanced RNA foundation models based on language models, offering valuable insights into the task-specific performances of these models. Third, we investigate the vital RNA language model components from the tokenizer and positional encoding aspects. Notably, our findings emphasize the superiority of single nucleotide tokenization and the effectiveness of Attention with Linear Biases (ALiBi) over traditional positional encoding methods. Based on these insights, a simple yet strong baseline called BEACON-B is proposed, which can achieve outstanding performance with limited data and computational resources. The datasets and source code of our benchmark are available at https://github.com/terry-r123/RNABenchmark.
- Abstract(参考訳): RNAは、生物学的プロセスや疾患のメカニズムにおいて、遺伝子命令を機能的な結果に翻訳する上で重要な役割を担っている。
RNA、特に普遍的なRNA言語モデルに対する多くの深層学習アプローチが出現したが、これらの手法の有効性を評価するための標準ベンチマークが欠如している。
本研究では、最初の包括的なRNAベンチマークBEACON (\textbf{BE}nchm\textbf{A}rk for \textbf{CO}mprehensive R\textbf{N}A Task and Language Models)を紹介する。
まず、BEACONは構造解析、機能研究、工学的応用を網羅し、様々なRNA理解タスクにおけるメソッドの性能を総合的に評価する13のタスクからなる。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、トークン化剤と位置エンコーディングの側面から、重要なRNA言語モデルコンポーネントについて検討する。
特に,従来の位置符号化法よりも単一ヌクレオチドのトークン化が優れていること,および線形ビアーゼ(ALiBi)による注意の有効性が注目された。
これらの知見に基づき、限られたデータと計算資源で優れた性能が得られるBEACON-Bと呼ばれる単純なベースラインが提案されている。
ベンチマークのデータセットとソースコードはhttps://github.com/terry-r123/RNABenchmarkで公開されている。
関連論文リスト
- Character-level Tokenizations as Powerful Inductive Biases for RNA Foundational Models [0.0]
RNAの挙動を理解し予測することは、RNAの構造と相互作用の複雑さのために困難である。
現在のRNAモデルは、タンパク質ドメインで観測された性能とはまだ一致していない。
ChaRNABERTは、確立されたベンチマークでいくつかのタスクで最先端のパフォーマンスに到達することができる。
論文 参考訳(メタデータ) (2024-11-05T21:56:16Z) - Comprehensive benchmarking of large language models for RNA secondary structure prediction [0.0]
RNA-LLMはRNA配列の大規模なデータセットを使用して、自己教師付き方法で、意味的に豊かな数値ベクトルで各RNA塩基をどう表現するかを学ぶ。
その中で、二次構造を予測することは、RNAの機能的機構を明らかにするための基本的な課題である。
本稿では,いくつかの事前学習されたRNA-LLMの総合的な実験解析を行い,それらを統合されたディープラーニングフレームワークにおけるRNA二次構造予測タスクと比較する。
論文 参考訳(メタデータ) (2024-10-21T17:12:06Z) - RNACG: A Universal RNA Sequence Conditional Generation model based on Flow-Matching [0.0]
本研究では,フローマッチング,すなわちRNACGに基づく普遍的なRNA配列生成モデルを開発する。
RNACGは様々な条件入力に対応でき、可搬性があり、ユーザーは条件入力のために符号化ネットワークをカスタマイズできる。
RNACGは、シーケンス生成およびプロパティ予測タスクに広範な適用性を示す。
論文 参考訳(メタデータ) (2024-07-29T09:46:46Z) - RiNALMo: General-Purpose RNA Language Models Can Generalize Well on Structure Prediction Tasks [1.1764999317813143]
リボ核酸言語モデル(RiNALMo)を導入し,RNAの隠れコードを明らかにする。
RiNALMoは、これまでで最大のRNA言語モデルであり、6億5千万のパラメータが3600万の非コーディングRNA配列で事前訓練されている。
論文 参考訳(メタデータ) (2024-02-29T14:50:58Z) - RDesign: Hierarchical Data-efficient Representation Learning for
Tertiary Structure-based RNA Design [65.41144149958208]
本研究では,データ駆動型RNA設計パイプラインを体系的に構築することを目的とする。
我々は、ベンチマークデータセットを作成し、複雑なRNA第三次構造を表現するための包括的な構造モデリングアプローチを設計した。
RNA設計プロセスを容易にするために,塩基対を持つ抽出二次構造体を事前知識として組み込んだ。
論文 参考訳(メタデータ) (2023-01-25T17:19:49Z) - Neural-Symbolic Recursive Machine for Systematic Generalization [113.22455566135757]
我々は、基底記号システム(GSS)のコアとなるニューラル・シンボリック再帰機械(NSR)を紹介する。
NSRは神経知覚、構文解析、意味推論を統合している。
我々はNSRの有効性を,系統的一般化能力の探索を目的とした4つの挑戦的ベンチマークで評価した。
論文 参考訳(メタデータ) (2022-10-04T13:27:38Z) - E2Efold-3D: End-to-End Deep Learning Method for accurate de novo RNA 3D
Structure Prediction [46.38735421190187]
E2Efold-3Dというエンド・ツー・エンドの深層学習手法を開発し,テクスタイド・ノボRNA構造予測を精度良く行う。
完全微分可能なエンドツーエンドパイプライン、二次構造による自己蒸留、パラメータ効率のよいバックボーンの定式化など、データ不足を克服するために、いくつかの新しいコンポーネントが提案されている。
論文 参考訳(メタデータ) (2022-07-04T17:15:35Z) - Classification of Long Noncoding RNA Elements Using Deep Convolutional
Neural Networks and Siamese Networks [17.8181080354116]
この論文は、cRNA配列を分類するために、ディープ畳み込みニューラルネットワーク(CNN)の新たな手法を提案する。
その結果、CNNベースの分類モデルにより効率よく解ける画像分類プロブレムに、クラスサイズRNA配列を変換する。
論文 参考訳(メタデータ) (2021-02-10T17:26:38Z) - Syntax Role for Neural Semantic Role Labeling [77.5166510071142]
意味的役割ラベリング(SRL)は、文の意味的述語・代名詞構造を認識することを目的としている。
従来のモデルでは、構文情報はSRLのパフォーマンスに顕著な貢献をする可能性がある。
最近の神経SRL研究は、構文情報は神経意味的役割のラベル付けにおいてはるかに重要でないことを示している。
論文 参考訳(メタデータ) (2020-09-12T07:01:12Z) - RNA Secondary Structure Prediction By Learning Unrolled Algorithms [70.09461537906319]
本稿では,RNA二次構造予測のためのエンド・ツー・エンドのディープラーニングモデルであるE2Efoldを提案する。
E2Efoldの鍵となる考え方は、RNA塩基対行列を直接予測し、制約のないプログラミングを、制約を強制するための深いアーキテクチャのテンプレートとして使うことである。
ベンチマークデータセットに関する包括的な実験により、E2Efoldの優れた性能を実証する。
論文 参考訳(メタデータ) (2020-02-13T23:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。