論文の概要: OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking
- arxiv url: http://arxiv.org/abs/2505.14402v1
- Date: Tue, 20 May 2025 14:16:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.343188
- Title: OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking
- Title(参考訳): OmniGenBench: 再現可能なゲノムファンデーションモデルベンチマークのためのモジュールプラットフォーム
- Authors: Heng Yang, Jack Cole, Yuan Li, Renzhi Chen, Geyong Min, Ke Li,
- Abstract要約: ゲノム基盤モデル (GFMs) は、ゲノムをデコードするトランスフォーメーションアプローチとして登場した。
GFMがAI駆動ゲノム学の展望を拡大し、再形成するにつれ、この分野は厳密で再現可能な評価の緊急の必要性に直面している。
我々は、GFM間のデータ、モデル、ベンチマーク、解釈可能性レイヤを統合するために設計されたモジュラーベンチマークプラットフォームであるOmniGenBenchを紹介します。
- 参考スコア(独自算出の注目度): 21.177773831820673
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The code of nature, embedded in DNA and RNA genomes since the origin of life, holds immense potential to impact both humans and ecosystems through genome modeling. Genomic Foundation Models (GFMs) have emerged as a transformative approach to decoding the genome. As GFMs scale up and reshape the landscape of AI-driven genomics, the field faces an urgent need for rigorous and reproducible evaluation. We present OmniGenBench, a modular benchmarking platform designed to unify the data, model, benchmarking, and interpretability layers across GFMs. OmniGenBench enables standardized, one-command evaluation of any GFM across five benchmark suites, with seamless integration of over 31 open-source models. Through automated pipelines and community-extensible features, the platform addresses critical reproducibility challenges, including data transparency, model interoperability, benchmark fragmentation, and black-box interpretability. OmniGenBench aims to serve as foundational infrastructure for reproducible genomic AI research, accelerating trustworthy discovery and collaborative innovation in the era of genome-scale modeling.
- Abstract(参考訳): 生命の起源からDNAやRNAゲノムに埋め込まれた自然のコードは、ゲノムモデリングを通じて人間と生態系の両方に影響を与える大きな可能性を秘めている。
ゲノム基盤モデル (GFMs) は、ゲノムをデコードするトランスフォーメーションアプローチとして登場した。
GFMがAIを駆使したゲノミクスの展望を拡大し、再形成するにつれ、この分野は厳密で再現可能な評価の緊急の必要性に直面している。
我々は、GFM間のデータ、モデル、ベンチマーク、解釈可能性レイヤを統合するために設計されたモジュラーベンチマークプラットフォームであるOmniGenBenchを紹介します。
OmniGenBenchは、31以上のオープンソースモデルのシームレスな統合により、5つのベンチマークスイートにわたるGFMの標準化された1つのコマンドによる評価を可能にする。
自動パイプラインとコミュニティ拡張機能を通じて、プラットフォームはデータの透明性、モデルの相互運用性、ベンチマークのフラグメンテーション、ブラックボックスの解釈可能性など、重要な再現性課題に対処する。
OmniGenBenchは、ゲノムスケールモデリングの時代において、信頼できる発見と協力的なイノベーションを加速し、再現可能なゲノムAI研究の基盤となることを目的としている。
関連論文リスト
- Benchmarking and Evaluation of AI Models in Biology: Outcomes and Recommendations from the CZI Virtual Cells Workshop [18.00029758641004]
我々は、AI駆動の仮想細胞のための堅牢なベンチマークの開発を加速することを目指している。
これらのベンチマークは、厳格さ、関連性、生物学的関連性を保証するために不可欠である。
これらのベンチマークは、新たな発見、治療的洞察、細胞系のより深い理解を促進する統合モデルに向けて、分野を前進させるだろう。
論文 参考訳(メタデータ) (2025-07-14T17:25:28Z) - StarBASE-GP: Biologically-Guided Automated Machine Learning for Genotype-to-Phenotype Association Analysis [1.6393663206537612]
Star-based Single-locus and Epistasis Analysis Tool - Genetic Programming (StarBASE-GP)を提案する。
StarBASE-GPは、大規模ゲノムデータセットの表現型変異に関連する有意義な遺伝的変異を発見するための自動フレームワークである。
我々は,ラットノベギクス(茶色ラット)のコホート上でStarBASE-GPを評価し,体質量指数に関連する変異を同定した。
論文 参考訳(メタデータ) (2025-05-28T18:05:15Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - GAMformer: In-Context Learning for Generalized Additive Models [53.08263343627232]
本稿では,1つの前方パスにおけるGAMの形状関数を推定するために,文脈内学習を利用した最初の手法であるGAMformerを紹介する。
実験の結果,GAMformerは様々な分類ベンチマークにおいて,他の主要なGAMと同等に動作することがわかった。
論文 参考訳(メタデータ) (2024-10-06T17:28:20Z) - OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models [6.781852451887055]
ゲノミクス基盤モデル(GFM)ベンチマーク専用のフレームワークであるGFMBenchを紹介する。
4つの大規模ベンチマークから数百のゲノムタスクに数百万のゲノム配列を統合する。
GFMBenchは、ユーザフレンドリーなインターフェースと多様なチュートリアルを提供するオープンソースソフトウェアとしてリリースされた。
論文 参考訳(メタデータ) (2024-10-02T17:40:44Z) - UniGen: A Unified Framework for Textual Dataset Generation Using Large Language Models [88.16197692794707]
UniGenは、多様で正確で高度に制御可能なデータセットを作成するように設計された包括的なフレームワークである。
データ多様性を強化するため、UniGenは属性誘導生成モジュールとグループチェック機能を備えている。
大規模な実験は、UniGenによって生成されたデータの優れた品質を示す。
論文 参考訳(メタデータ) (2024-06-27T07:56:44Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Efficient and Scalable Fine-Tune of Language Models for Genome
Understanding [49.606093223945734]
textscLanguage prefix ftextscIne-tuning for textscGentextscOmes。
DNA基盤モデルとは異なり、textscLingoは自然言語基盤モデルの文脈的手がかりを戦略的に活用している。
textscLingoはさらに、適応的なランクサンプリング方法により、下流の細調整タスクを数多く許容する。
論文 参考訳(メタデータ) (2024-02-12T21:40:45Z) - Neuro-GPT: Towards A Foundation Model for EEG [0.04188114563181615]
脳波エンコーダとGPTモデルからなる基礎モデルであるNeuro-GPTを提案する。
ファンデーションモデルは、マスクされたEEGセグメントの再構築方法を学ぶ自己教師付きタスクを使用して、大規模なデータセット上で事前訓練される。
基礎モデルを適用することで、スクラッチからトレーニングしたモデルと比較して、分類性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-11-07T07:07:18Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Continual Learning with Fully Probabilistic Models [70.3497683558609]
機械学習の完全確率的(または生成的)モデルに基づく継続的学習のアプローチを提案する。
生成器と分類器の両方に対してガウス混合モデル(GMM)インスタンスを用いた擬似リハーサル手法を提案する。
我々は,GMRが,クラス増分学習問題に対して,非常に競合的な時間とメモリの複雑さで,最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-04-19T12:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。