論文の概要: Discovering Interpretable Biological Concepts in Single-cell RNA-seq Foundation Models
- arxiv url: http://arxiv.org/abs/2510.25807v1
- Date: Wed, 29 Oct 2025 08:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.502083
- Title: Discovering Interpretable Biological Concepts in Single-cell RNA-seq Foundation Models
- Title(参考訳): 単細胞RNA-seqファンデーションモデルにおける解釈可能な生物学的概念の発見
- Authors: Charlotte Claye, Pierre Marschall, Wassila Ouerdane, Céline Hudelot, Julien Duquesne,
- Abstract要約: シングルセルRNA-seqファンデーションモデルは、下流タスクでは高いパフォーマンスを達成するが、ブラックボックスのままである。
近年の研究では、疎辞書学習が深層学習モデルから概念を抽出できることが示されている。
シングルセルRNA-seqモデルのための新しい概念ベースの解釈可能性フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.810388351528255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-cell RNA-seq foundation models achieve strong performance on downstream tasks but remain black boxes, limiting their utility for biological discovery. Recent work has shown that sparse dictionary learning can extract concepts from deep learning models, with promising applications in biomedical imaging and protein models. However, interpreting biological concepts remains challenging, as biological sequences are not inherently human-interpretable. We introduce a novel concept-based interpretability framework for single-cell RNA-seq models with a focus on concept interpretation and evaluation. We propose an attribution method with counterfactual perturbations that identifies genes that influence concept activation, moving beyond correlational approaches like differential expression analysis. We then provide two complementary interpretation approaches: an expert-driven analysis facilitated by an interactive interface and an ontology-driven method with attribution-based biological pathway enrichment. Applying our framework to two well-known single-cell RNA-seq models from the literature, we interpret concepts extracted by Top-K Sparse Auto-Encoders trained on two immune cell datasets. With a domain expert in immunology, we show that concepts improve interpretability compared to individual neurons while preserving the richness and informativeness of the latent representations. This work provides a principled framework for interpreting what biological knowledge foundation models have encoded, paving the way for their use for hypothesis generation and discovery.
- Abstract(参考訳): シングルセルRNA-seqファンデーションモデルは下流タスクで高いパフォーマンスを達成するが、ブラックボックスのままであり、生物学的発見に有効性を制限する。
近年の研究では、疎辞書学習が深層学習モデルから概念を抽出できることが示されており、バイオメディカルイメージングやタンパク質モデルにも有望な応用が期待されている。
しかしながら、生物学的な概念の解釈は、生物学的配列が本質的に人間に解釈可能なものではないため、依然として困難である。
本稿では,概念解釈と評価に焦点をあてた,シングルセルRNA-seqモデルのための新しい概念ベースの解釈可能性フレームワークを提案する。
本稿では, 概念活性化に影響を与える遺伝子を同定し, 差分表現解析のような相関的なアプローチを超越した帰属法を提案する。
次に,対話的インタフェースによって促進される専門家駆動分析と,帰属に基づく生物学的経路の富化を伴うオントロジー駆動手法の2つの補完的解釈手法を提案する。
そこで本研究では,Top-K Sparse Auto-Encodersが2つの免疫細胞データセットから抽出した概念を解釈する。
免疫学の分野では, 概念は個々のニューロンと比較して解釈性を向上させる一方で, 潜伏表現の豊かさと情報性は保たれている。
この研究は、生物学的知識基盤モデルがコード化したものを解釈するための原則化されたフレームワークを提供し、仮説の生成と発見に利用するための道を開いた。
関連論文リスト
- Concept-Guided Interpretability via Neural Chunking [64.6429903327095]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
神経集団レベルで繰り返しチャンクを抽出する3つの方法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Towards scientific discovery with dictionary learning: Extracting biological concepts from microscopy foundation models [6.136186137141521]
そこで本研究では,スパース辞書学習アルゴリズムであるICFL(Iterative Codebook Feature Learning)と,制御データから派生したPCAホワイトニング前処理ステップの組合せを提案する。
我々は、細胞型や遺伝的摂動といった生物学的に意味のある概念をうまく回収する。
本手法は,バイオイメージングにおける機械的解釈可能性による科学的発見に期待できる新たな方向を提供する。
論文 参考訳(メタデータ) (2024-12-20T00:01:16Z) - Causal Representation Learning from Multimodal Biomedical Observations [57.00712157758845]
バイオメディカルデータセットの理解を容易にするために,マルチモーダルデータに対するフレキシブルな識別条件と原理的手法を開発した。
主要な理論的貢献は、モジュラリティ間の因果関係の構造的空間性である。
実世界のヒト表現型データセットの結果は、確立された生物医学研究と一致している。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Learning biologically relevant features in a pathology foundation model using sparse autoencoders [2.5919097694815365]
我々は、病理予知基礎モデルの埋め込みについてスパースオートエンコーダを訓練した。
Sparse Autoencoderの機能は, 解釈可能な, 単意味的な生物学的概念を表す。
論文 参考訳(メタデータ) (2024-07-15T15:03:01Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Biologically-informed deep learning models for cancer: fundamental
trends for encoding and interpreting oncology data [0.0]
本稿では,癌生物学における推論を支援するために用いられる深層学習(DL)モデルに着目した構造化文献解析を行う。
この研究は、既存のモデルが、先行知識、生物学的妥当性、解釈可能性とのより良い対話の必要性にどのように対処するかに焦点を当てている。
論文 参考訳(メタデータ) (2022-07-02T12:11:35Z) - Evolution Is All You Need: Phylogenetic Augmentation for Contrastive
Learning [1.7188280334580197]
生物配列埋め込みの自己監視型表現学習は、下流タスクにおける計算リソースの制約を緩和する。
進化的系統的増補を用いた対比学習が表現学習の目的として利用できることを示す。
論文 参考訳(メタデータ) (2020-12-25T01:35:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。