論文の概要: Augmenting Biological Fitness Prediction Benchmarks with Landscapes Features from GraphFLA
- arxiv url: http://arxiv.org/abs/2510.24826v1
- Date: Tue, 28 Oct 2025 15:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.607833
- Title: Augmenting Biological Fitness Prediction Benchmarks with Landscapes Features from GraphFLA
- Title(参考訳): GraphFLAによる景観特徴を用いた生体適合度予測ベンチマークの強化
- Authors: Mingyu Huang, Shasha Zhou, Ke Li,
- Abstract要約: 我々は、Mutagensisデータからフィットネスランドスケープを構築し、分析するPythonフレームワークであるGraphFLAを紹介した。
GraphFLAをProteinGym,RNAGym,CIS-BPの5,300以上のランドスケープに適用することにより,数十のフィットネス予測モデルの性能の解釈と比較に有用であることを示す。
- 参考スコア(独自算出の注目度): 8.920725431658777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models increasingly map biological sequence-fitness landscapes to predict mutational effects. Effective evaluation of these models requires benchmarks curated from empirical data. Despite their impressive scales, existing benchmarks lack topographical information regarding the underlying fitness landscapes, which hampers interpretation and comparison of model performance beyond averaged scores. Here, we introduce GraphFLA, a Python framework that constructs and analyzes fitness landscapes from mutagensis data in diverse modalities (e.g., DNA, RNA, protein, and beyond) with up to millions of mutants. GraphFLA calculates 20 biologically relevant features that characterize 4 fundamental aspects of landscape topography. By applying GraphFLA to over 5,300 landscapes from ProteinGym, RNAGym, and CIS-BP, we demonstrate its utility in interpreting and comparing the performance of dozens of fitness prediction models, highlighting factors influencing model accuracy and respective advantages of different models. In addition, we release 155 combinatorially complete empirical fitness landscapes, encompassing over 2.2 million sequences across various modalities. All the codes and datasets are available at https://github.com/COLA-Laboratory/GraphFLA.
- Abstract(参考訳): 機械学習モデルは、変異効果を予測するために、生物のシーケンス適合性の景観をマップするようになっている。
これらのモデルの効果的な評価には、経験的なデータから得られたベンチマークが必要である。
既存のベンチマークでは、印象的なスケールにもかかわらず、基礎となるフィットネスランドスケープに関する地形情報は欠落しており、これは平均的なスコア以上のモデルパフォーマンスの解釈と比較を妨げている。
ここでは,最大数百万の変異体を用いて,変異体データ(例えば,DNA,RNA,タンパク質など)からフィットネスランドスケープを構築し,解析するPythonフレームワークであるGraphFLAを紹介する。
GraphFLAは、ランドスケープトポグラフィーの4つの基本的な側面を特徴付ける、生物学的に関係のある20の特徴を計算する。
GraphFLAをProteinGym、RNAGym、CIS-BPの5,300以上の景観に適用することにより、数十のフィットネス予測モデルの性能を解釈・比較し、モデル精度に影響を与える要因と異なるモデルのそれぞれの利点を強調した。
さらに、155の総合的に完全な経験的フィットネスランドスケープをリリースし、様々なモードで2200万以上のシーケンスを網羅した。
すべてのコードとデータセットはhttps://github.com/COLA-Laboratory/GraphFLAで公開されている。
関連論文リスト
- A Graph-Based Framework for Interpretable Whole Slide Image Analysis [86.37618055724441]
我々は,全スライディング画像を生物学的にインフォームドされたグラフ表現に変換するフレームワークを開発した。
我々のアプローチは、任意の格子ではなく、自然構造を尊重する組織領域からグラフノードを構築する。
がんのステージングと生存予測の課題に強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-14T20:15:04Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Revisiting Graph Neural Networks on Graph-level Tasks: Comprehensive Experiments, Analysis, and Improvements [54.006506479865344]
グラフレベルグラフニューラルネットワーク(GNN)のための統一評価フレームワークを提案する。
このフレームワークは、さまざまなデータセットにわたるGNNを評価するための標準化された設定を提供する。
また,表現性の向上と一般化機能を備えた新しいGNNモデルを提案する。
論文 参考訳(メタデータ) (2025-01-01T08:48:53Z) - Phikon-v2, A large and public feature extractor for biomarker prediction [42.52549987351643]
我々は、DINOv2を用いて視覚変換器を訓練し、このモデルの1つのイテレーションを公開して、Phikon-v2と呼ばれるさらなる実験を行う。
Phikon-v2は、公開されている組織学のスライドをトレーニングしながら、以前リリースしたモデル(Phikon)を上回り、プロプライエタリなデータでトレーニングされた他の病理学基盤モデル(FM)と同等に動作します。
論文 参考訳(メタデータ) (2024-09-13T20:12:29Z) - Graph Representation Learning Strategies for Omics Data: A Case Study on Parkinson's Disease [13.630617713928197]
グラフニューラルネットワークは、古典的な統計学と機械学習の方法に代わる有望な代替手段として登場した。
本研究では,ケースコントロール分類のためのグラフ表現学習モデルについて検討する。
タンパク質-タンパク質相互作用やメタボライト-メタボライト相互作用を含む,サンプル類似性ネットワークと分子相互作用ネットワークから得られたトポロジーを比較した。
論文 参考訳(メタデータ) (2024-06-20T16:06:39Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Challenging the Myth of Graph Collaborative Filtering: a Reasoned and Reproducibility-driven Analysis [50.972595036856035]
本稿では,6つの人気グラフと最近のグラフ推薦モデルの結果を再現するコードを提案する。
これらのグラフモデルと従来の協調フィルタリングモデルを比較する。
ユーザの近所からの情報フローを調べることにより,データセット構造における内在的特徴にどのようなモデルが影響するかを同定することを目的とする。
論文 参考訳(メタデータ) (2023-08-01T09:31:44Z) - Permutation Equivariant Graph Framelets for Heterophilous Graph Learning [6.679929638714752]
本研究では,Haar型グラフフレームレットの構築により,マルチスケール抽出を実現する手法を開発した。
ヘテロ親和性グラフの特定のデータセット上で,我々のモデルが最高の性能を達成できることが示される。
論文 参考訳(メタデータ) (2023-06-07T09:05:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。