論文の概要: HypoGeneAgent: A Hypothesis Language Agent for Gene-Set Cluster Resolution Selection Using Perturb-seq Datasets
- arxiv url: http://arxiv.org/abs/2509.09740v1
- Date: Wed, 10 Sep 2025 22:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.872692
- Title: HypoGeneAgent: A Hypothesis Language Agent for Gene-Set Cluster Resolution Selection Using Perturb-seq Datasets
- Title(参考訳): hypoGeneAgent:perturb-seqデータセットを用いた遺伝子セットクラスタ分割のための仮説言語エージェント
- Authors: Ying Yuan, Xing-Yue Monica Ge, Aaron Archer Waterman, Tommaso Biancalani, David Richmond, Yogesh Pandit, Avtar Singh, Russell Littman, Jin Liu, Jan-Christian Huetter, Vladimir Ermakov,
- Abstract要約: 大規模な単一細胞とPerturb-seqの研究は、通常、クラスタリング細胞に関係している。
本稿では,大規模言語モデル(LLM)駆動のフレームワークであるHYPOGENEAGENTを,クラスタアノテーションを定量的に最適化可能なタスクに変換する。
- 参考スコア(独自算出の注目度): 9.465853880657487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale single-cell and Perturb-seq investigations routinely involve clustering cells and subsequently annotating each cluster with Gene-Ontology (GO) terms to elucidate the underlying biological programs. However, both stages, resolution selection and functional annotation, are inherently subjective, relying on heuristics and expert curation. We present HYPOGENEAGENT, a large language model (LLM)-driven framework, transforming cluster annotation into a quantitatively optimizable task. Initially, an LLM functioning as a gene-set analyst analyzes the content of each gene program or perturbation module and generates a ranked list of GO-based hypotheses, accompanied by calibrated confidence scores. Subsequently, we embed every predicted description with a sentence-embedding model, compute pair-wise cosine similarities, and let the agent referee panel score (i) the internal consistency of the predictions, high average similarity within the same cluster, termed intra-cluster agreement (ii) their external distinctiveness, low similarity between clusters, termed inter-cluster separation. These two quantities are combined to produce an agent-derived resolution score, which is maximized when clusters exhibit simultaneous coherence and mutual exclusivity. When applied to a public K562 CRISPRi Perturb-seq dataset as a preliminary test, our Resolution Score selects clustering granularities that exhibit alignment with known pathway compared to classical metrics such silhouette score, modularity score for gene functional enrichment summary. These findings establish LLM agents as objective adjudicators of cluster resolution and functional annotation, thereby paving the way for fully automated, context-aware interpretation pipelines in single-cell multi-omics studies.
- Abstract(参考訳): 大規模単一細胞とPerturb-seqの研究は、通常、クラスタリング細胞を包含し、それぞれのクラスタに遺伝子オントロジー(GO)用語で注釈を付け、基礎となる生物学的プログラムを解明する。
しかし、どちらの段階も分解能の選択と機能的アノテーションは本質的に主観的であり、ヒューリスティックスと専門家のキュレーションに依存している。
本稿では,大規模言語モデル(LLM)駆動のフレームワークであるHYPOGENEAGENTを,クラスタアノテーションを定量的に最適化可能なタスクに変換する。
当初、遺伝子セット分析として機能するLCMは、各遺伝子プログラムまたは摂動モジュールの内容を分析し、校正された信頼スコアを伴うGOベースの仮説のランクリストを生成する。
その後、予測されたすべての記述を文埋め込みモデルに埋め込み、ペアワイズなコサイン類似性を計算し、エージェントレフェリーパネルスコアを付与する。
一 クラスタ内合意という,予測の内部整合性、同一クラスタ内の平均的類似性
(II) クラスタ間の外的特異性, クラスタ間の低類似性, クラスタ間分離(cluster inter-cluster separation) 。
これら2つの量を組み合わせてエージェント由来の分解能スコアを生成し、クラスタが同時にコヒーレンスと相互排他性を示すときに最大化する。
一般のK562 CRISPRi Perturb-seqデータセットを予備試験として適用すると、Science Scoreは、シルエットスコア、遺伝子機能強化サマリーのためのモジュラリティスコアなどの古典的な指標と比較して、既知の経路と整合性を示すクラスタリングの粒度を選択する。
これらの知見は,LLMエージェントをクラスタ分解能と機能アノテーションの客観的適応剤として確立し,単一セルマルチオミクス研究において,完全に自動化されたコンテキスト認識解釈パイプラインを実現する。
関連論文リスト
- GOLFS: Feature Selection via Combining Both Global and Local Information for High Dimensional Clustering [10.740524877905685]
GlObalとローカル情報を組み合わせた特徴選択法(GOLFS)を提案する。
GOLFSは、多様体学習による局所幾何学構造と、サンプルの大域的相関構造を組み合わせて、識別的特徴を選択する。
この組み合わせにより、より包括的な情報を活用することにより、機能選択とクラスタリングの両方の精度が向上する。
論文 参考訳(メタデータ) (2025-07-15T03:39:07Z) - scGHSOM: Hierarchical clustering and visualization of single-cell and CRISPR data using growing hierarchical SOM [0.8452349885923507]
階層型自己組織化マップ (GHSOM) を育成するアン教師なしクラスタリングによる包括的遺伝子セル依存性の可視化を提案する。
GHSOMは、クラスタの自己成長構造が必要な変動を満足するように階層構造でクラスタサンプルに適用される。
本稿では,クラスタ特徴マップとクラスタ分布マップの2つの革新的な可視化ツールを提案する。
論文 参考訳(メタデータ) (2024-07-24T04:01:09Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [85.51611950757643]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Sparse and geometry-aware generalisation of the mutual information for joint discriminative clustering and feature selection [19.066989850964756]
GEMINIと呼ばれる相互情報の幾何を考慮した一般化を最大化しようとする識別クラスタリングモデルを導入する。
このアルゴリズムは,特徴探索の負担を回避し,識別クラスタリングモデルのみを設計しながら,高次元データや大量のサンプルに対して容易にスケーラブルである。
以上の結果から,Sparse GEMINIは競合アルゴリズムであり,関連基準や事前仮説を使わずに,クラスタリングに関して変数の関連するサブセットを選択することができることがわかった。
論文 参考訳(メタデータ) (2023-02-07T10:52:04Z) - Simple and Scalable Algorithms for Cluster-Aware Precision Medicine [0.0]
共同クラスタリングと埋め込みに対するシンプルでスケーラブルなアプローチを提案する。
この新しいクラスタ対応の埋め込みアプローチは、現在の共同埋め込みとクラスタリング法の複雑さと限界を克服する。
当社のアプローチでは,ユーザが希望するクラスタ数を選択する必要はなく,階層的にクラスタ化された埋め込みの解釈可能なデンドログラムを生成する。
論文 参考訳(メタデータ) (2022-11-29T19:27:26Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Inference post Selection of Group-sparse Regression Models [2.1485350418225244]
条件推論は、自動モデル選択からのデータが推論のために再利用されるとき、バイアスに対処するための厳密なアプローチを提供する。
本稿では,線形モデル内の不確実性を評価するための統計的に一貫したベイズ的枠組みを開発する。
遺伝子、タンパク質、遺伝的変異体、神経画像計測がそれぞれ生物学的経路、分子機能、調節領域、認知的役割によってグループ化された場合、これらのモデルはグループスパース学習アルゴリズムの有用なクラスによって選択される。
論文 参考訳(メタデータ) (2020-12-31T15:43:26Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。