論文の概要: HypoGeneAgent: A Hypothesis Language Agent for Gene-Set Cluster Resolution Selection Using Perturb-seq Datasets
- arxiv url: http://arxiv.org/abs/2509.09740v1
- Date: Wed, 10 Sep 2025 22:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.872692
- Title: HypoGeneAgent: A Hypothesis Language Agent for Gene-Set Cluster Resolution Selection Using Perturb-seq Datasets
- Title(参考訳): hypoGeneAgent:perturb-seqデータセットを用いた遺伝子セットクラスタ分割のための仮説言語エージェント
- Authors: Ying Yuan, Xing-Yue Monica Ge, Aaron Archer Waterman, Tommaso Biancalani, David Richmond, Yogesh Pandit, Avtar Singh, Russell Littman, Jin Liu, Jan-Christian Huetter, Vladimir Ermakov,
- Abstract要約: 大規模な単一細胞とPerturb-seqの研究は、通常、クラスタリング細胞に関係している。
本稿では,大規模言語モデル(LLM)駆動のフレームワークであるHYPOGENEAGENTを,クラスタアノテーションを定量的に最適化可能なタスクに変換する。
- 参考スコア(独自算出の注目度): 9.465853880657487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale single-cell and Perturb-seq investigations routinely involve clustering cells and subsequently annotating each cluster with Gene-Ontology (GO) terms to elucidate the underlying biological programs. However, both stages, resolution selection and functional annotation, are inherently subjective, relying on heuristics and expert curation. We present HYPOGENEAGENT, a large language model (LLM)-driven framework, transforming cluster annotation into a quantitatively optimizable task. Initially, an LLM functioning as a gene-set analyst analyzes the content of each gene program or perturbation module and generates a ranked list of GO-based hypotheses, accompanied by calibrated confidence scores. Subsequently, we embed every predicted description with a sentence-embedding model, compute pair-wise cosine similarities, and let the agent referee panel score (i) the internal consistency of the predictions, high average similarity within the same cluster, termed intra-cluster agreement (ii) their external distinctiveness, low similarity between clusters, termed inter-cluster separation. These two quantities are combined to produce an agent-derived resolution score, which is maximized when clusters exhibit simultaneous coherence and mutual exclusivity. When applied to a public K562 CRISPRi Perturb-seq dataset as a preliminary test, our Resolution Score selects clustering granularities that exhibit alignment with known pathway compared to classical metrics such silhouette score, modularity score for gene functional enrichment summary. These findings establish LLM agents as objective adjudicators of cluster resolution and functional annotation, thereby paving the way for fully automated, context-aware interpretation pipelines in single-cell multi-omics studies.
- Abstract(参考訳): 大規模単一細胞とPerturb-seqの研究は、通常、クラスタリング細胞を包含し、それぞれのクラスタに遺伝子オントロジー(GO)用語で注釈を付け、基礎となる生物学的プログラムを解明する。
しかし、どちらの段階も分解能の選択と機能的アノテーションは本質的に主観的であり、ヒューリスティックスと専門家のキュレーションに依存している。
本稿では,大規模言語モデル(LLM)駆動のフレームワークであるHYPOGENEAGENTを,クラスタアノテーションを定量的に最適化可能なタスクに変換する。
当初、遺伝子セット分析として機能するLCMは、各遺伝子プログラムまたは摂動モジュールの内容を分析し、校正された信頼スコアを伴うGOベースの仮説のランクリストを生成する。
その後、予測されたすべての記述を文埋め込みモデルに埋め込み、ペアワイズなコサイン類似性を計算し、エージェントレフェリーパネルスコアを付与する。
一 クラスタ内合意という,予測の内部整合性、同一クラスタ内の平均的類似性
(II) クラスタ間の外的特異性, クラスタ間の低類似性, クラスタ間分離(cluster inter-cluster separation) 。
これら2つの量を組み合わせてエージェント由来の分解能スコアを生成し、クラスタが同時にコヒーレンスと相互排他性を示すときに最大化する。
一般のK562 CRISPRi Perturb-seqデータセットを予備試験として適用すると、Science Scoreは、シルエットスコア、遺伝子機能強化サマリーのためのモジュラリティスコアなどの古典的な指標と比較して、既知の経路と整合性を示すクラスタリングの粒度を選択する。
これらの知見は,LLMエージェントをクラスタ分解能と機能アノテーションの客観的適応剤として確立し,単一セルマルチオミクス研究において,完全に自動化されたコンテキスト認識解釈パイプラインを実現する。
関連論文リスト
- GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering [9.33534873952683]
本稿では,非教師付き時系列クラスタリングのための局所的およびグローバル的対実的説明性を橋渡しする,最初の統一フレームワークであるGALACTICを紹介する。
インスタンスレベル(ローカル)では、GALACTICはクラスタ認識最適化の目的を通じて摂動を生成する。
クラスタレベル(グローバル)では、認知負荷を軽減し、解釈可能性を高めるため、代表的なCE選択問題を定式化する。
論文 参考訳(メタデータ) (2026-03-05T15:59:33Z) - Hierarchical Clustering With Confidence [6.4793198569929356]
集約的階層的クラスタリングは、データの小さな摂動に非常に敏感である。
階層的クラスタリングのランダム化は,安定性の測定だけでなく,有効な仮説テスト手順の設計にも有用であることを示す。
論文 参考訳(メタデータ) (2025-12-06T18:18:20Z) - Parameter-Free Clustering via Self-Supervised Consensus Maximization (Extended Version) [50.41628860536753]
本稿では,SCMax と呼ばれる自己教師型コンセンサス最大化による,新しい完全パラメータフリークラスタリングフレームワークを提案する。
本フレームワークは,階層的なクラスタリングとクラスタ評価を単一の統合プロセスで行う。
論文 参考訳(メタデータ) (2025-11-12T11:17:17Z) - Reliable data clustering with Bayesian community detection [0.0]
研究者たちはモジュール構造を明らかにするために、クラスタリングの類似性データに依存している。
しかし、階層クラスタリング、k平均、WGCNAといった広く使われているクラスタリング手法では、基本モデル選択が欠如しており、ノイズの影響を受けやすい。
一般的な回避策は相関行列表現をスパースしてクラスタリング前にノイズを除去するが、この余分なステップは任意のしきい値を導入し、構造を歪め、信頼できない結果をもたらす。
論文 参考訳(メタデータ) (2025-10-16T14:10:24Z) - GOLFS: Feature Selection via Combining Both Global and Local Information for High Dimensional Clustering [10.740524877905685]
GlObalとローカル情報を組み合わせた特徴選択法(GOLFS)を提案する。
GOLFSは、多様体学習による局所幾何学構造と、サンプルの大域的相関構造を組み合わせて、識別的特徴を選択する。
この組み合わせにより、より包括的な情報を活用することにより、機能選択とクラスタリングの両方の精度が向上する。
論文 参考訳(メタデータ) (2025-07-15T03:39:07Z) - scGHSOM: Hierarchical clustering and visualization of single-cell and CRISPR data using growing hierarchical SOM [0.8452349885923507]
階層型自己組織化マップ (GHSOM) を育成するアン教師なしクラスタリングによる包括的遺伝子セル依存性の可視化を提案する。
GHSOMは、クラスタの自己成長構造が必要な変動を満足するように階層構造でクラスタサンプルに適用される。
本稿では,クラスタ特徴マップとクラスタ分布マップの2つの革新的な可視化ツールを提案する。
論文 参考訳(メタデータ) (2024-07-24T04:01:09Z) - Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis [53.38518232934096]
マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。
本稿では,タスククラスタリングと特徴変換の交点におけるMTL手法を提案する。
両段階において、鍵となる側面は減った目標と特徴の解釈可能性を維持することである。
論文 参考訳(メタデータ) (2024-06-12T08:30:16Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Single-Cell Deep Clustering Method Assisted by Exogenous Gene
Information: A Novel Approach to Identifying Cell Types [50.55583697209676]
我々は,細胞間のトポロジ的特徴を効率的に捉えるために,注目度の高いグラフオートエンコーダを開発した。
クラスタリング過程において,両情報の集合を統合し,細胞と遺伝子の特徴を再構成し,識別的表現を生成する。
本研究は、細胞の特徴と分布に関する知見を高め、疾患の早期診断と治療の基礎となる。
論文 参考訳(メタデータ) (2023-11-28T09:14:55Z) - Revisiting Instance-Optimal Cluster Recovery in the Labeled Stochastic Block Model [85.51611950757643]
IAC (Instance-Adaptive Clustering, インスタンス適応クラスタリング) を提案する。
IACは$ MathcalO(n, textpolylog(n) $の計算複雑性を維持しており、大規模問題に対してスケーラブルで実用的なものである。
論文 参考訳(メタデータ) (2023-06-18T08:46:06Z) - Sparse and geometry-aware generalisation of the mutual information for joint discriminative clustering and feature selection [19.066989850964756]
GEMINIと呼ばれる相互情報の幾何を考慮した一般化を最大化しようとする識別クラスタリングモデルを導入する。
このアルゴリズムは,特徴探索の負担を回避し,識別クラスタリングモデルのみを設計しながら,高次元データや大量のサンプルに対して容易にスケーラブルである。
以上の結果から,Sparse GEMINIは競合アルゴリズムであり,関連基準や事前仮説を使わずに,クラスタリングに関して変数の関連するサブセットを選択することができることがわかった。
論文 参考訳(メタデータ) (2023-02-07T10:52:04Z) - Simple and Scalable Algorithms for Cluster-Aware Precision Medicine [0.0]
共同クラスタリングと埋め込みに対するシンプルでスケーラブルなアプローチを提案する。
この新しいクラスタ対応の埋め込みアプローチは、現在の共同埋め込みとクラスタリング法の複雑さと限界を克服する。
当社のアプローチでは,ユーザが希望するクラスタ数を選択する必要はなく,階層的にクラスタ化された埋め込みの解釈可能なデンドログラムを生成する。
論文 参考訳(メタデータ) (2022-11-29T19:27:26Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Inference post Selection of Group-sparse Regression Models [2.1485350418225244]
条件推論は、自動モデル選択からのデータが推論のために再利用されるとき、バイアスに対処するための厳密なアプローチを提供する。
本稿では,線形モデル内の不確実性を評価するための統計的に一貫したベイズ的枠組みを開発する。
遺伝子、タンパク質、遺伝的変異体、神経画像計測がそれぞれ生物学的経路、分子機能、調節領域、認知的役割によってグループ化された場合、これらのモデルはグループスパース学習アルゴリズムの有用なクラスによって選択される。
論文 参考訳(メタデータ) (2020-12-31T15:43:26Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。