論文の概要: NABench: Large-Scale Benchmarks of Nucleotide Foundation Models for Fitness Prediction
- arxiv url: http://arxiv.org/abs/2511.02888v1
- Date: Tue, 04 Nov 2025 14:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.196105
- Title: NABench: Large-Scale Benchmarks of Nucleotide Foundation Models for Fitness Prediction
- Title(参考訳): NABench: フィットネス予測のためのヌクレオチド基礎モデルの大規模ベンチマーク
- Authors: Zhongmin Li, Runze Ma, Jiahao Tan, Chengzi Tan, Shuangjia Zheng,
- Abstract要約: NABenchは、核酸適合度予測のための大規模で体系的なベンチマークである。
NABenchは、スケール、多様性、データ品質において、以前のヌクレオチド適合度ベンチマークを上回っている。
我々は、RNA/DNA設計、合成生物学、生化学における下流の応用を支援するため、NABenchをリリースする。
- 参考スコア(独自算出の注目度): 5.289640428805137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nucleotide sequence variation can induce significant shifts in functional fitness. Recent nucleotide foundation models promise to predict such fitness effects directly from sequence, yet heterogeneous datasets and inconsistent preprocessing make it difficult to compare methods fairly across DNA and RNA families. Here we introduce NABench, a large-scale, systematic benchmark for nucleic acid fitness prediction. NABench aggregates 162 high-throughput assays and curates 2.6 million mutated sequences spanning diverse DNA and RNA families, with standardized splits and rich metadata. We show that NABench surpasses prior nucleotide fitness benchmarks in scale, diversity, and data quality. Under a unified evaluation suite, we rigorously assess 29 representative foundation models across zero-shot, few-shot prediction, transfer learning, and supervised settings. The results quantify performance heterogeneity across tasks and nucleic-acid types, demonstrating clear strengths and failure modes for different modeling choices and establishing strong, reproducible baselines. We release NABench to advance nucleic acid modeling, supporting downstream applications in RNA/DNA design, synthetic biology, and biochemistry. Our code is available at https://github.com/mrzzmrzz/NABench.
- Abstract(参考訳): ヌクレオチド配列の変異は機能適合性の著しい変化を引き起こす。
近年のヌクレオチド基盤モデルでは、配列や不均一なデータセットや不整合前処理から直接、このような適合性効果を予測することが約束されており、DNAやRNAファミリー間で適切な方法を比較することは困難である。
ここでは、核酸適合度予測のための大規模で体系的なベンチマークであるNABenchを紹介する。
NABenchは162個のハイスループットアッセイを集約し、多種多様なDNAおよびRNAファミリーにまたがる260万の変異配列を、標準化された分割と豊富なメタデータでキュレートする。
NABenchは、スケール、多様性、データ品質において、以前のヌクレオチド適合度ベンチマークを上回っている。
統合評価スイートでは、ゼロショット、少数ショット予測、トランスファー学習、教師付き設定を含む29の代表的な基礎モデルを厳格に評価する。
その結果、タスクと核酸タイプ間のパフォーマンスの不均一性を定量化し、異なるモデリング選択のための明確な強度と失敗モードを示し、強い再現可能なベースラインを確立した。
我々は、RNA/DNA設計、合成生物学、生化学における下流の応用を支援するため、NABenchをリリースする。
私たちのコードはhttps://github.com/mrzzmrzz/NABench.comから入手可能です。
関連論文リスト
- Multimodal Modeling of CRISPR-Cas12 Activity Using Foundation Models and Chromatin Accessibility Data [5.002699100842828]
本研究は,転写学的なデータに基づいてトレーニングされた生物基盤モデルにより,gRNAの活性推定が向上するかどうかを考察する。
既存のRNAファンデーションモデルからの埋め込みを軽量回帰器への入力として使用することにより、従来のベースラインよりも大幅に向上することを示す。
本研究は,gRNA活性予測のための事前学習基盤モデルとアクセシビリティーデータの有効性を明らかにする。
論文 参考訳(メタデータ) (2025-06-12T16:15:14Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - DART-Eval: A Comprehensive DNA Language Model Evaluation Benchmark on Regulatory DNA [2.543784712990392]
大規模なゲノムDNA言語モデル(DNALM)は、多様なDNA要素の一般化可能な表現を学習することを目的としている。
本ベンチマークでは, 機能的配列の特徴探索, 細胞型特異的制御活性の予測, 遺伝的変異の影響の予測など, 生物学的に有意義な下流課題を対象としている。
論文 参考訳(メタデータ) (2024-12-06T21:23:35Z) - Character-level Tokenizations as Powerful Inductive Biases for RNA Foundational Models [0.0]
RNAの挙動を理解し予測することは、RNAの構造と相互作用の複雑さのために困難である。
現在のRNAモデルは、タンパク質ドメインで観測された性能とはまだ一致していない。
ChaRNABERTは、確立されたベンチマークでいくつかのタスクで最先端のパフォーマンスに到達することができる。
論文 参考訳(メタデータ) (2024-11-05T21:56:16Z) - BEACON: Benchmark for Comprehensive RNA Tasks and Language Models [60.02663015002029]
本稿では、最初の包括的なRNAベンチマークBEACON(textbfBEnchmtextbfArk for textbfCOmprehensive RtextbfNA Task and Language Models)を紹介する。
まずBEACONは、構造解析、機能研究、工学的応用を網羅した、これまでの広範囲にわたる研究から導かれた13のタスクから構成される。
第2に、CNNのような従来のアプローチや、言語モデルに基づく高度なRNA基盤モデルなど、さまざまなモデルについて検討し、これらのモデルのタスク固有のパフォーマンスに関する貴重な洞察を提供する。
第3に、重要なRNA言語モデルコンポーネントについて検討する。
論文 参考訳(メタデータ) (2024-06-14T19:39:19Z) - Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics [44.97217246897902]
エネルギーモデルを用いて、構造化データセットで高品質なラベル特化データを生成するという課題に対処する。
伝統的な訓練方法は、マルコフ連鎖モンテカルロ混合による困難に遭遇する。
非平衡効果を利用した新しいトレーニングアルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-07-13T15:08:44Z) - DNAGPT: A Generalized Pre-trained Tool for Versatile DNA Sequence
Analysis Tasks [14.931476374660944]
DNAGPTは、全哺乳類から200億以上の塩基対をトレーニングした、一般的なDNA事前学習モデルである。
古典的なGPTモデルをバイナリ分類タスク、数値回帰タスク、包括的トークン言語で拡張することにより、DNAGPTは汎用的なDNA解析タスクを処理できる。
論文 参考訳(メタデータ) (2023-07-11T06:30:43Z) - HyenaDNA: Long-Range Genomic Sequence Modeling at Single Nucleotide
Resolution [76.97231739317259]
本稿では,ヒト参照ゲノム上に,最大100万個のトークンを単一ヌクレオチドレベルで有するゲノム基盤モデルであるHyenaDNAについて紹介する。
Nucleotide Transformerの微調整されたベンチマークでは、HyenaDNAが18のデータセットのうち12の最先端(SotA)に到達した。
論文 参考訳(メタデータ) (2023-06-27T20:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。