論文の概要: Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation
- arxiv url: http://arxiv.org/abs/2603.07233v1
- Date: Sat, 07 Mar 2026 14:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.108268
- Title: Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation
- Title(参考訳): 遺伝子摂動に対する細胞応答予測のための検索補助生成
- Authors: Andrea Giuseppe Di Francesco, Andrea Rubbi, Pietro Liò,
- Abstract要約: PT-RAG(Perturbation-aware Two-stage Retrieval-Augmented Generation)は、レトリーバル-Augmented Generationを従来の言語モデルから細胞生物学まで拡張する新しいフレームワークである。
本研究は,遺伝子摂動に対する細胞応答をモデル化するための将来的なパラダイムとして,検索増強世代を確立した。
- 参考スコア(独自算出の注目度): 11.439588896862155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting how cells respond to genetic perturbations is fundamental to understanding gene function, disease mechanisms, and therapeutic development. While recent deep learning approaches have shown promise in modeling single-cell perturbation responses, they struggle to generalize across cell types and perturbation contexts due to limited contextual information during generation. We introduce PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation), a novel framework that extends Retrieval-Augmented Generation beyond traditional language-model applications to cellular biology. Unlike standard RAG systems designed for text retrieval with pre-trained LLMs, perturbation retrieval lacks established similarity metrics and requires learning what constitutes relevant context, making differentiable retrieval essential. PT-RAG addresses this through a two-stage pipeline: first, retrieving candidate perturbations $K$ using GenePT embeddings, then adaptively refining the selection through Gumbel-Softmax discrete sampling conditioned on both the cell state and the input perturbation. This cell-type-aware differentiable retrieval enables end-to-end optimization of the retrieval objective jointly with generation. On the Replogle-Nadig single-gene perturbation dataset, we demonstrate that PT-RAG outperforms both STATE and vanilla RAG under identical experimental conditions, with the strongest gains in distributional similarity metrics ($W_1$, $W_2$). Notably, vanilla RAG's dramatic failure is itself a key finding: it demonstrates that differentiable, cell-type-aware retrieval is essential in this domain, and that naive retrieval can actively harm performance. Our results establish retrieval-augmented generation as a promising paradigm for modelling cellular responses to gene perturbation. The code to reproduce our experiments is available at https://github.com/difra100/PT-RAG_ICLR.
- Abstract(参考訳): 細胞が遺伝子摂動にどのように反応するかを予測することは、遺伝子機能、疾患のメカニズム、治療の発展を理解するのに不可欠である。
近年の深層学習アプローチは単一細胞摂動応答のモデル化において有望であるが, 生成時の文脈情報に制限があるため, セルタイプや摂動コンテキストの一般化に苦慮している。
本稿では,PT-RAG(Perturbation-aware Two-stage Retrieval-Augmented Generation)を紹介する。
事前訓練されたLLMによるテキスト検索のために設計された標準的なRAGシステムとは異なり、摂動検索は確立された類似度指標が欠如しており、関連するコンテキストを構成するものを学ぶことが必要であり、識別可能な検索が不可欠である。
PT-RAGは、まず、GenePT埋め込みを使用して候補摂動を検索し、それからセル状態と入力摂動の両方で条件付けられたGumbel-Softmax離散サンプリングを通して選択を適応的に精製する。
本発明のセル型認識可微分検索は、生成と協調して検索対象のエンドツーエンドの最適化を可能にする。
Replogle-Nadig 単遺伝子摂動データセットでは、PT-RAG がSTATE とバニラRAG の両方を同じ実験条件で上回り、分布類似度(W_1$, $W_2$)が最多となる(W_1$, $W_2$)。
特に、バニラRAGの劇的な失敗は、それ自体重要な発見である:このドメインでは、分化可能な細胞型認識検索が不可欠であり、ナイーブ検索がパフォーマンスを積極的に損なうことが示される。
本研究は,遺伝子摂動に対する細胞応答をモデル化するための将来的なパラダイムとして,検索増強世代を確立した。
実験を再現するコードはhttps://github.com/difra100/PT-RAG_ICLR.orgで公開されている。
関連論文リスト
- Scalable Single-Cell Gene Expression Generation with Latent Diffusion Models [11.343106383645441]
単一細胞遺伝子発現データに対してスケーラブルな潜伏拡散モデルを導入し、これを scLDM と呼ぶ。
観測および摂動単細胞データおよびセルレベルの分類などの下流タスクにおいて,様々な実験において,その優れた性能を示す。
論文 参考訳(メタデータ) (2025-11-04T20:44:12Z) - Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - ImpRAG: Retrieval-Augmented Generation with Implicit Queries [34.72864597562907]
ImpRAGは、検索と生成を統一モデルに統合するクエリフリーなRAGシステムである。
我々は、ImpRAGが、多様な形式を持つ未確認タスクの正確なマッチスコアを3.6-11.5改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T21:38:21Z) - Ext2Gen: Alignment through Unified Extraction and Generation for Robust Retrieval-Augmented Generation [18.570899885235104]
提案するExt2Genは,回答を生成する前にクエリ関連文を抽出することでRAGを強化する新しい抽出列生成モデルである。
実験により、Ext2Genはクエリ関連文を高い精度とリコールで効果的に識別し、信頼性の高い回答をもたらすことが示された。
論文 参考訳(メタデータ) (2025-02-28T06:46:53Z) - Multi-Modal and Multi-Attribute Generation of Single Cells with CFGen [76.02070962797794]
本研究では、単一セルデータ固有の離散性を保存するフローベースの条件生成モデルであるCellFlow for Generation (CFGen)を紹介する。
CFGenは、全ゲノムマルチモーダル単一セルデータを確実に生成し、重要な生物学的データ特性の回復を改善する。
論文 参考訳(メタデータ) (2024-07-16T14:05:03Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。