Fugu-MT 論文翻訳(概要): Benchmarking Transcriptomics Foundation Models for Perturbation Analysis : one PCA still rules them all

論文の概要: Benchmarking Transcriptomics Foundation Models for Perturbation Analysis : one PCA still rules them all

arxiv url: http://arxiv.org/abs/2410.13956v1
Date: Thu, 17 Oct 2024 18:27:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.185183
Title: Benchmarking Transcriptomics Foundation Models for Perturbation Analysis : one PCA still rules them all
Title（参考訳）: 摂動解析のための基礎モデルベンチマーク : 1つのPCAがそれらを全て制御している
Authors: Ihab Bendidi, Shawn Whitfield, Kian Kenyon-Dean, Hanene Ben Yedder, Yassir El Mesbahi, Emmanuel Noutahi, Alisandra K. Denton,
Abstract要約: 転写学的シークエンシングの最近の進歩は、価値ある洞察を明らかにする新しい機会を提供する。摂動解析におけるこれらの上昇モデルの有効性をしっかり評価するためのベンチマークは行われていない。本稿では,生物学的に動機づけた新しい評価フレームワークと摂動解析タスクの階層について述べる。
参考スコア（独自算出の注目度）: 1.507700065820919
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the relationships among genes, compounds, and their interactions in living organisms remains limited due to technological constraints and the complexity of biological data. Deep learning has shown promise in exploring these relationships using various data types. However, transcriptomics, which provides detailed insights into cellular states, is still underused due to its high noise levels and limited data availability. Recent advancements in transcriptomics sequencing provide new opportunities to uncover valuable insights, especially with the rise of many new foundation models for transcriptomics, yet no benchmark has been made to robustly evaluate the effectiveness of these rising models for perturbation analysis. This article presents a novel biologically motivated evaluation framework and a hierarchy of perturbation analysis tasks for comparing the performance of pretrained foundation models to each other and to more classical techniques of learning from transcriptomics data. We compile diverse public datasets from different sequencing techniques and cell lines to assess models performance. Our approach identifies scVI and PCA to be far better suited models for understanding biological perturbations in comparison to existing foundation models, especially in their application in real-world scenarios.
Abstract（参考訳）: 生物における遺伝子、化合物、およびそれらの相互作用の関係を理解することは、技術的な制約と生物学的データの複雑さのために制限されている。ディープラーニングは、これらの関係をさまざまなデータタイプを使って探求する上で、有望であることを示している。しかし、細胞状態に関する詳細な知見を提供する転写学は、高いノイズレベルと限られたデータ可用性のために、いまだに過小評価されている。近年のトランスクリプトミクスシークエンシングの進歩は、特に多くの新しいトランスクリプトミクス基盤モデルの台頭とともに、貴重な洞察を明らかにする新たな機会を提供するが、摂動解析におけるこれらの上昇モデルの有効性を確実に評価するベンチマークは行われていない。本稿では,事前学習した基礎モデルの性能を相互に比較するための,生物学的動機付け型評価フレームワークと摂動解析タスクの階層構造について述べる。様々なシークエンシング手法とセルラインから様々な公開データセットをコンパイルし、モデルの性能を評価する。提案手法は,既存の基盤モデル,特に実世界のシナリオにおける応用において,生物摂動の理解に非常に適したモデルとして,scVIとPCAを同定する。

関連論文リスト

DOGMA: Weaving Structural Information into Data-centric Single-cell Transcriptomics Analysis [43.565183518761984]
生データの構造的再構成と意味的拡張を目的としたデータ中心型フレームワークであるDOGMAを提案する。複雑な多種多様なベンチマークにおいて、DOGMA SOTA性能は優れたゼロショットロバスト性とサンプル効率を示す。
論文参考訳（メタデータ） (2026-02-02T09:10:09Z)
Investigating the Impact of Histopathological Foundation Models on Regressive Prediction of Homologous Recombination Deficiency [52.50039435394964]
回帰に基づくタスクの基礎モデルを体系的に評価する。我々は5つの最先端基礎モデルを用いて、スライド画像全体(WSI)からパッチレベルの特徴を抽出する。乳房、子宮内膜、肺がんコホートにまたがるこれらの抽出された特徴に基づいて、連続したRDDスコアを予測するモデルが訓練されている。
論文参考訳（メタデータ） (2026-01-29T14:06:50Z)
TabPFN-Wide: Continued Pre-Training for Extreme Feature Counts [2.3448377994589644]
既存のモデルを拡張する戦略として,事前にカスタマイズしたデータから抽出した合成データの事前学習を継続する手法を提案する。結果のモデルであるTabPFN-Wideは、ノイズに対する堅牢性を改善しながら、ベースモデルのパフォーマンスを一致または超過する。
論文参考訳（メタデータ） (2025-10-07T17:28:49Z)
Benchmarking Foundation Models for Mitotic Figure Classification [0.37334049820361814]
自己教師付き学習技術は、大規模なニューラルネットワークのトレーニングに大量のラベルのないデータを使用することを可能にした。本研究では,ミオティックフィギュア分類における基礎モデルの利用について検討する。我々は、すべてのモデルと、CNNとVision Transformerの両方のエンドツーエンドトレーニングベースラインを比較した。
論文参考訳（メタデータ） (2025-08-06T13:30:40Z)
scE$^2$TM: Toward Interpretable Single-Cell Embedding via Topic Modeling [21.79077173300944]
高品質なセル埋め込みと強力な解釈を提供する,外部知識誘導型単一セル埋め込みトピックモデルである scE2TM を提案する。 20のscRNA-seqデータセットの包括的な評価は、scE2TMがクラスタリング性能を著しく向上することを示す。
論文参考訳（メタデータ） (2025-07-11T07:15:13Z)
Characterizing Model Collapse in Large Language Models Using Semantic Networks and Next-Token Probability [4.841442157674423]
合成コンテンツがWebに浸透するにつれて、生成的AIモデルはオートファジーなプロセスを経験し、独自の出力を使って微調整される。これはモデル崩壊と呼ばれる現象につながり、世代を重ねて生成するAIモデルの性能と多様性を低下させる。近年の研究では、様々な生成AIモデルとデータタイプにまたがるモデル崩壊の出現について検討されている。
論文参考訳（メタデータ） (2024-10-16T08:02:48Z)
PerturBench: Benchmarking Machine Learning Models for Cellular Perturbation Analysis [14.526536510805755]
本稿では,この急速に発展する分野におけるベンチマークの標準化を目的として,単一細胞における摂動の影響を予測するための包括的なフレームワークを提案する。当社のフレームワークであるPerturBenchには、ユーザフレンドリなプラットフォーム、多様なデータセット、フェアモデル比較のためのメトリクス、詳細なパフォーマンス分析が含まれています。
論文参考訳（メタデータ） (2024-08-20T07:40:20Z)
GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。 GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文参考訳（メタデータ） (2024-06-01T08:01:05Z)
Rethinking Model Prototyping through the MedMNIST+ Dataset Collection [0.11999555634662634]
本研究は,MedMNIST+データベースに対する評価環境の多様化のためのベンチマークを示す。我々は、医用画像分類のための共通畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのアーキテクチャを徹底的に分析する。この結果から,計算効率のよいトレーニングスキームと最新の基礎モデルは,高額なエンドツーエンドトレーニングとリソース強化アプローチのギャップを埋める上で有望であることが示唆された。
論文参考訳（メタデータ） (2024-04-24T10:19:25Z)
Seeing Unseen: Discover Novel Biomedical Concepts via Geometry-Constrained Probabilistic Modeling [53.7117640028211]
同定された問題を解決するために,幾何制約付き確率的モデリング処理を提案する。構成された埋め込み空間のレイアウトに適切な制約を課すために、重要な幾何学的性質のスイートを組み込む。スペクトルグラフ理論法は、潜在的な新規クラスの数を推定するために考案された。
論文参考訳（メタデータ） (2024-03-02T00:56:05Z)
Improving Biomedical Entity Linking with Retrieval-enhanced Learning [53.24726622142558]
$k$NN-BioELは、トレーニングコーパス全体から同様のインスタンスを予測のヒントとして参照する機能を備えたBioELモデルを提供する。 k$NN-BioELは、いくつかのデータセットで最先端のベースラインを上回ります。
論文参考訳（メタデータ） (2023-12-15T14:04:23Z)
Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。データ拡張の可能性や構造化品種の導入など、その利点を強調します。テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文参考訳（メタデータ） (2023-10-11T19:16:09Z)
Incorporating Prior Knowledge in Deep Learning Models via Pathway Activity Autoencoders [5.950889585409067]
本稿では,癌におけるRNA-seqデータのための,事前知識に基づく新しいディープオートエンコーディングフレームワークPAAEを提案する。機能セットが小さいにもかかわらず,PAAEモデルとPAAEモデルでは,一般的な手法と比較して,アウト・オブ・セットの再現性が向上していることを示す。
論文参考訳（メタデータ） (2023-06-09T11:12:55Z)
Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文参考訳（メタデータ） (2022-10-28T14:38:50Z)
Using Explainable Boosting Machine to Compare Idiographic and Nomothetic Approaches for Ecological Momentary Assessment Data [2.0824228840987447]
本稿では,非線形解釈型機械学習(ML)モデルを用いた分類問題について検討する。木々の様々なアンサンブルは、不均衡な合成データセットと実世界のデータセットを用いて線形モデルと比較される。 2つの実世界のデータセットのうちの1つで、知識蒸留法は改善されたAUCスコアを達成する。
論文参考訳（メタデータ） (2022-04-04T17:56:37Z)
Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。 BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文参考訳（メタデータ） (2021-09-10T12:13:45Z)
Towards an Automatic Analysis of CHO-K1 Suspension Growth in Microfluidic Single-cell Cultivation [63.94623495501023]
我々は、人間の力で抽象化されたニューラルネットワークをデータレベルで注入できる新しい機械学習アーキテクチャを提案する。具体的には、自然データと合成データに基づいて生成モデルを同時に訓練し、細胞数などの対象変数を確実に推定できる共有表現を学習する。
論文参考訳（メタデータ） (2020-10-20T08:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。