論文の概要: OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models
- arxiv url: http://arxiv.org/abs/2410.01784v1
- Date: Wed, 2 Oct 2024 17:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 15:14:33.736262
- Title: OmniGenBench: Automating Large-scale in-silico Benchmarking for Genomic Foundation Models
- Title(参考訳): OmniGenBench:ゲノムファンデーションモデルのための大規模インシリコベンチマークの自動化
- Authors: Heng Yang, Jack Cole, Ke Li,
- Abstract要約: ゲノミクス基盤モデル(GFM)ベンチマーク専用のフレームワークであるGFMBenchを紹介する。
4つの大規模ベンチマークから数百のゲノムタスクに数百万のゲノム配列を統合する。
GFMBenchは、ユーザフレンドリーなインターフェースと多様なチュートリアルを提供するオープンソースソフトウェアとしてリリースされた。
- 参考スコア(独自算出の注目度): 6.781852451887055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancements in artificial intelligence in recent years, such as Large Language Models (LLMs), have fueled expectations for breakthroughs in genomic foundation models (GFMs). The code of nature, hidden in diverse genomes since the very beginning of life's evolution, holds immense potential for impacting humans and ecosystems through genome modeling. Recent breakthroughs in GFMs, such as Evo, have attracted significant investment and attention to genomic modeling, as they address long-standing challenges and transform in-silico genomic studies into automated, reliable, and efficient paradigms. In the context of this flourishing era of consecutive technological revolutions in genomics, GFM studies face two major challenges: the lack of GFM benchmarking tools and the absence of open-source software for diverse genomics. These challenges hinder the rapid evolution of GFMs and their wide application in tasks such as understanding and synthesizing genomes, problems that have persisted for decades. To address these challenges, we introduce GFMBench, a framework dedicated to GFM-oriented benchmarking. GFMBench standardizes benchmark suites and automates benchmarking for a wide range of open-source GFMs. It integrates millions of genomic sequences across hundreds of genomic tasks from four large-scale benchmarks, democratizing GFMs for a wide range of in-silico genomic applications. Additionally, GFMBench is released as open-source software, offering user-friendly interfaces and diverse tutorials, applicable for AutoBench and complex tasks like RNA design and structure prediction. To facilitate further advancements in genome modeling, we have launched a public leaderboard showcasing the benchmark performance derived from AutoBench. GFMBench represents a step toward standardizing GFM benchmarking and democratizing GFM applications.
- Abstract(参考訳): 近年のLarge Language Models (LLMs)のような人工知能の進歩は、ゲノム基盤モデル(GFMs)のブレークスルーへの期待を加速させた。
生命の進化の始まりから多様なゲノムに隠された自然のコードは、ゲノムモデリングを通じて人間や生態系に影響を与える大きな可能性を秘めている。
Evoのような近年のGFMのブレークスルーは、長年の課題に対処し、サイリコのゲノム研究を自動化され、信頼性があり、効率的なパラダイムに転換するなど、ゲノムモデリングに多大な投資と関心を集めている。
ゲノミクスにおける連続的な技術革新の時代において、GFM研究は、GFMベンチマークツールの欠如と多様なゲノミクスのためのオープンソースソフトウェアがないという2つの大きな課題に直面している。
これらの課題は、GFMの急速な進化を妨げ、ゲノムの理解や合成といったタスクに広く応用され、何十年も続いている。
これらの課題に対処するために, GFM 指向のベンチマーク専用フレームワーク GFMBench を紹介する。
GFMBenchはベンチマークスイートを標準化し、幅広いオープンソースGFMのベンチマークを自動化する。
4つの大規模なベンチマークから数百のゲノミクスタスクに数百万のゲノム配列を統合し、広範囲のサイリコゲノム応用のためにGFMを民主化する。
さらに、GFMBenchはオープンソースソフトウェアとしてリリースされ、AutoBenchに適用可能なユーザフレンドリーなインターフェースと多様なチュートリアル、RNA設計や構造予測といった複雑なタスクを提供する。
ゲノムモデリングのさらなる進歩を促進するため、我々はAutoBenchのベンチマーク性能を示す公開リーダーボードを立ち上げた。
GFMBenchは、GFMベンチマークの標準化とGFMアプリケーションの民主化に向けたステップである。
関連論文リスト
- GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本研究では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデルを提案する。
このモデルは分子生物学の中心的なドグマに固執し、タンパク質のコード配列を正確に生成する。
また、特にプロモーター配列の即応的な生成を通じて、シーケンス最適化において大きな可能性を示している。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - GFM-RAG: Graph Foundation Model for Retrieval Augmented Generation [84.41557981816077]
本稿では,新しいグラフ基盤モデル (GFM) である GFM-RAG について紹介する。
GFM-RAGは、複雑なクエリ-知識関係をキャプチャするグラフ構造を理由とする、革新的なグラフニューラルネットワークによって実現されている。
効率とニューラルスケーリング法則との整合性を維持しつつ、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-02-03T07:04:29Z) - GDM4MMIMO: Generative Diffusion Models for Massive MIMO Communications [61.56610953012228]
生成拡散モデル (generative diffusion model, GDM) は、生成モデルの最先端のファミリーの一つである。
GDMは、暗黙の事前知識と堅牢な一般化能力を学ぶ能力を示す。
ケーススタディは、GDMが有望な、効率的な超次元チャネルステートメント情報取得を促進する可能性を示唆している。
論文 参考訳(メタデータ) (2024-12-24T08:42:01Z) - PANGAEA: A Global and Inclusive Benchmark for Geospatial Foundation Models [3.9031647202359667]
PANGAEAは標準化された評価プロトコルであり、さまざまなデータセット、タスク、解像度、センサーのモダリティ、時間性をカバーする。
我々は、このベンチマークで利用可能な最も人気のあるGFMを評価し、その性能を複数のドメインで分析する。
本研究は, GFMの限界を, 異なるシナリオ下で強調し, 教師付きモデルよりも常に優れていないことを示した。
論文 参考訳(メタデータ) (2024-12-05T14:40:41Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Cancer-inspired Genomics Mapper Model for the Generation of Synthetic
DNA Sequences with Desired Genomics Signatures [0.0]
がんに触発されたゲノムマッパーモデル(CGMM)は、遺伝的アルゴリズム(GA)とディープラーニング(DL)の手法を組み合わせたものである。
我々はCGMMが、祖先や癌などの選択された表現型の合成ゲノムを生成できることを実証した。
論文 参考訳(メタデータ) (2023-05-01T07:16:40Z) - Result Diversification by Multi-objective Evolutionary Algorithms with
Theoretical Guarantees [94.72461292387146]
両目的探索問題として結果の多様化問題を再構成し,多目的進化アルゴリズム(EA)を用いて解くことを提案する。
GSEMOが最適時間近似比1/2$を達成できることを理論的に証明する。
目的関数が動的に変化すると、GSEMOはこの近似比をランニングタイムで維持することができ、Borodinらによって提案されたオープンな問題に対処する。
論文 参考訳(メタデータ) (2021-10-18T14:00:22Z) - Benchmarking Graph Neural Networks [75.42159546060509]
グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。
成功している分野が主流で信頼性を持つようになるためには、進捗を定量化するためにベンチマークを開発する必要がある。
GitHubリポジトリは1,800のスターと339のフォークに到達し、提案されているオープンソースフレームワークの有用性を実証している。
論文 参考訳(メタデータ) (2020-03-02T15:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。