論文の概要: ViroBench: Benchmarking Nucleotide Foundation Models on Viral Genomics Tasks
- arxiv url: http://arxiv.org/abs/2605.25388v1
- Date: Mon, 25 May 2026 03:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.27126
- Title: ViroBench: Benchmarking Nucleotide Foundation Models on Viral Genomics Tasks
- Title(参考訳): ViroBench: ウイルスゲノムタスクにおけるヌクレオチド基盤モデルのベンチマーク
- Authors: Dongxin Ye, Fang Hu, Han Hu, Shu Hu, Yang Tan, Wanli Ouyang, Stan Z. Li, Jie Cui, Nanqing Dong,
- Abstract要約: 我々は、ヌクレオチド基礎モデル(NFM)に特化して設計された最初の包括的かつ大規模ベンチマークであるViroBenchを紹介する。
ViroBench氏は、生物学的理解と潜伏するバイオセキュリティリスクという、2つの重要な側面にわたるモデルを評価し、4つのタスクタイプ内の18のさまざまなシナリオをカバーしている。
ViroBenchは、ウイルスヌクレオチド基盤モデルの研究のための解釈可能、診断的評価および再現可能な測定フレームワークを提供する。
- 参考スコア(独自算出の注目度): 86.89727311669937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Nucleotide sequences constitute the fundamental genetic basis of biological systems, rendering viral genomic analysis critical for biomedical advancement. Despite progress in biological foundation models, specifically nucleotide foundation models (NFMs), the field lacks a unified standard for viral genomics to facilitate community development and enforce biosecurity constraints. To address this, we introduce ViroBench, the first comprehensive and large-scale benchmark specifically designed for NFMs in viral settings. ViroBench evaluates models across two critical dimensions: biological understanding and latent biosecurity risk, covering 18 diverse scenarios within 4 task types. Extensive evaluation of 66 NFMs across diverse architectures yields three critical conclusions. Firstly, NFMs exhibit a performance degradation in biological understanding under phylogenetic and temporal shifts, indicating weak extrapolation capabilities. Secondly, generation tasks reveal a decoupling between statistical likelihood and biological functional validity, posing latent biosecurity risks. Thirdly, controlled ablation studies reveal that taxonomic diversity in pretraining data outweighs parameter scale. Specifically, a lightweight baseline trained on diverse data achieves a 67.5% performance gain over its original model. Overall, ViroBench provides interpretable, diagnostic evaluations and a reproducible measurement framework for future research on viral nucleotide foundation models. The datasets and code are publicly available at https://github.com/QIANJINYDX/ViroBench.
- Abstract(参考訳): ヌクレオチド配列は生物学的システムの基本的な遺伝的基盤となり、ウイルスゲノム解析を生物医学の進歩に欠かせないものにする。
生物基盤モデル、特にヌクレオチド基礎モデル(NFM)の進歩にもかかわらず、この分野は、コミュニティの発展を促進し、バイオセキュリティの制約を強制するために、ウイルスゲノム学の統一された標準を欠いている。
これを解決するために、バイラルな設定でNFM用に特別に設計された最初の包括的で大規模なベンチマークであるViroBenchを紹介します。
ViroBench氏は、生物学的理解と潜伏するバイオセキュリティリスクという、2つの重要な側面にわたるモデルを評価し、4つのタスクタイプ内の18のさまざまなシナリオをカバーしている。
66個のNFMを多種多様なアーキテクチャで広範囲に評価した結果、3つの重要な結論が得られた。
第一に、NFMは系統的および時間的シフトの下で生物学的理解のパフォーマンス低下を示し、弱い外挿能力を示す。
第二に、生成タスクは統計的可能性と生物学的機能的妥当性の疎結合を示し、潜伏するバイオセキュリティリスクを生じさせる。
第三に、制御されたアブレーション研究は、事前学習データの分類学的多様性がパラメータスケールを上回ることを示した。
具体的には、多様なデータに基づいてトレーニングされた軽量のベースラインは、オリジナルのモデルよりも67.5%のパフォーマンス向上を実現している。
全体として、ViroBenchは、ウイルスヌクレオチド基盤モデルに関する将来の研究のために、解釈可能、診断的評価および再現可能な測定フレームワークを提供する。
データセットとコードはhttps://github.com/QIANJINYDX/ViroBench.comで公開されている。
関連論文リスト
- PhageBench: Can LLMs Understand Raw Bacteriophage Genomes? [2.9367295285731285]
細菌ファージは微生物の生態系の調節や抗生物質の代替に重要な役割を果たしている。
PhageBenchは、バイオインフォマティクスの専門家のワークフローを反映してファージのゲノム理解を評価するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2026-04-07T12:14:23Z) - BioReason: Incentivizing Multimodal Biological Reasoning within a DNA-LLM Model [12.528834366422466]
BioReasonは論理的、生物学的に一貫性のある還元物を生成することを学ぶ。
KEGGによる疾患経路予測の精度は86%から98%に向上する。
また、強いベースラインよりも平均15%の変動効果予測を改善する。
論文 参考訳(メタデータ) (2025-05-29T15:49:27Z) - OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking [21.177773831820673]
ゲノム基盤モデル (GFMs) は、ゲノムをデコードするトランスフォーメーションアプローチとして登場した。
GFMがAI駆動ゲノム学の展望を拡大し、再形成するにつれ、この分野は厳密で再現可能な評価の緊急の必要性に直面している。
我々は、GFM間のデータ、モデル、ベンチマーク、解釈可能性レイヤを統合するために設計されたモジュラーベンチマークプラットフォームであるOmniGenBenchを紹介します。
論文 参考訳(メタデータ) (2025-05-20T14:16:25Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Progress and Opportunities of Foundation Models in Bioinformatics [77.74411726471439]
基礎モデル(FM)は、特に深層学習の領域において、計算生物学の新しい時代に定着した。
我々の焦点は、特定の生物学的問題にFMを応用することであり、研究ニーズに適切なFMを選択するために研究コミュニティを指導することを目的としています。
データノイズ、モデル説明可能性、潜在的なバイアスなど、生物学においてFMが直面する課題と限界を分析します。
論文 参考訳(メタデータ) (2024-02-06T02:29:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。