論文の概要: GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models
- arxiv url: http://arxiv.org/abs/2406.01627v2
- Date: Wed, 5 Jun 2024 10:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 11:59:09.565201
- Title: GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models
- Title(参考訳): GenBench:ゲノム基盤モデルのシステム評価のためのベンチマークスイート
- Authors: Zicheng Liu, Jiahui Li, Siyuan Li, Zelin Zang, Cheng Tan, Yufei Huang, Yajing Bai, Stan Z. Li,
- Abstract要約: 我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
- 参考スコア(独自算出の注目度): 56.63218531256961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Genomic Foundation Model (GFM) paradigm is expected to facilitate the extraction of generalizable representations from massive genomic data, thereby enabling their application across a spectrum of downstream applications. Despite advancements, a lack of evaluation framework makes it difficult to ensure equitable assessment due to experimental settings, model intricacy, benchmark datasets, and reproducibility challenges. In the absence of standardization, comparative analyses risk becoming biased and unreliable. To surmount this impasse, we introduce GenBench, a comprehensive benchmarking suite specifically tailored for evaluating the efficacy of Genomic Foundation Models. GenBench offers a modular and expandable framework that encapsulates a variety of state-of-the-art methodologies. Through systematic evaluations of datasets spanning diverse biological domains with a particular emphasis on both short-range and long-range genomic tasks, firstly including the three most important DNA tasks covering Coding Region, Non-Coding Region, Genome Structure, etc. Moreover, We provide a nuanced analysis of the interplay between model architecture and dataset characteristics on task-specific performance. Our findings reveal an interesting observation: independent of the number of parameters, the discernible difference in preference between the attention-based and convolution-based models on short- and long-range tasks may provide insights into the future design of GFM.
- Abstract(参考訳): ゲノミック・ファンデーション・モデル(GFM)パラダイムは、大規模なゲノムデータから一般化可能な表現の抽出を容易にすることが期待されている。
進歩にもかかわらず、評価フレームワークの欠如は、実験的な設定、モデルの複雑度、ベンチマークデータセット、再現性の問題による公平な評価の確保を困難にしている。
標準化がなければ、比較分析のリスクは偏り、信頼できない。
本稿では,ゲノミクス・ファンデーション・モデルの有効性を評価するための総合的なベンチマーク・スイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
様々な生物ドメインにまたがるデータセットの体系的評価を通じて、特に短距離と長距離のゲノムタスクに重点を置いて、まず、コーディング領域、非コーディング領域、ゲノム構造などをカバーする3つの重要なDNAタスクを含む。
さらに,タスク固有の性能に対するモデルアーキテクチャとデータセット特性の相互作用を微妙に解析する。
パラメータの数とは無関係に、短距離および長距離タスクにおける注意ベースモデルと畳み込みモデルとの相違は、将来のGFMの設計に関する洞察を与える可能性がある。
関連論文リスト
- MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [14.526536510805755]
本稿では,この急速に発展する分野におけるベンチマークの標準化を目的として,単一細胞における摂動の影響を予測するための包括的なフレームワークを提案する。
当社のフレームワークであるPerturBenchには、ユーザフレンドリなプラットフォーム、多様なデータセット、フェアモデル比較のためのメトリクス、詳細なパフォーマンス分析が含まれています。
論文 参考訳(メタデータ) (2024-08-20T07:40:20Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Toward the Identifiability of Comparative Deep Generative Models [7.5479347719819865]
比較深部生成モデル(DGM)における識別可能性の理論を提案する。
これらのモデルは、一般的な混合関数のクラスにおいて識別性に欠けるが、混合関数が断片的アフィンであるときに驚くほど識別可能であることを示す。
また, モデルミス種別の影響についても検討し, 従来提案されていた比較DGMの正則化手法が, 潜伏変数の数が事前に分かっていない場合に, 識別可能性を高めることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-29T06:10:54Z) - Hyperspectral Benchmark: Bridging the Gap between HSI Applications
through Comprehensive Dataset and Pretraining [11.935879491267634]
ハイパースペクトルイメージング (HSI) は、様々な応用の非破壊空間分光技術として機能する。
繰り返し発生する課題は、ターゲットデータセットの限られたサイズであり、徹底的なアーキテクチャ検索を妨げる。
本研究は、3つの顕著な異なるHSIアプリケーションを含む革新的なベンチマークデータセットを紹介する。
論文 参考訳(メタデータ) (2023-09-20T08:08:34Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z) - GEO-Bench: Toward Foundation Models for Earth Monitoring [139.77907168809085]
6つの分類と6つのセグメンテーションタスクからなるベンチマークを提案する。
このベンチマークは、さまざまな地球観測タスクの進行の原動力となる。
論文 参考訳(メタデータ) (2023-06-06T16:16:05Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Sparse Semi-supervised Heterogeneous Interbattery Bayesian Analysis [5.653409562189869]
本稿では,任意の問題をモデル化可能な一般FAフレームワークを提案する。
提案モデルであるSparse Semi-supervised Heterogeneous Interbattery Bayesian Analysis (SSHIBA) は4つのシナリオで検証されている。
論文 参考訳(メタデータ) (2020-01-24T13:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。