論文の概要: scShapeBench: Discovering geometry from high dimensional scRNAseq data
- arxiv url: http://arxiv.org/abs/2605.12662v1
- Date: Tue, 12 May 2026 19:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.632165
- Title: scShapeBench: Discovering geometry from high dimensional scRNAseq data
- Title(参考訳): scShapeBench: 高次元の scRNAseq データから幾何を発見する
- Authors: Andrew J Steindl, João Felipe Rocha, Brian Tshilengi Di Bassinga, Zachary Warren, Matthew Scicluna, César Miguel Valdez Córdova, Shabarni Gupta, Leire Torices, Daniel Neumann, Timothy J. Mann, Ihuan Gunawan, Dhananjay Bhaskar, John G Lock, Christine L Chaffer, Guy Wolf, Smita Krishnaswamy,
- Abstract要約: 単セルデータセットにおける形状検出のためのベンチマークデータセットである scShapeBench を紹介する。
合成データセットは、制御された分散を伴う地層構造スケルトングラフからサンプリングされる。
実際のシングルセルデータセットは、さまざまなソースからキュレーションされ、専門家によって注釈付けされる。
- 参考スコア(独自算出の注目度): 8.845081957844453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-dimensional point cloud data arise across many scientific domains, especially single-cell biology. The shapes or topologies of these datasets determine the types of information that can be extracted. For example, clustered data supports cell-type identification, trajectory structures support transition analysis, and archetypal structures capture continua of cellular behaviors. Existing analysis pipelines often assume a specific shape. The standard Seurat pipeline combines UMAP visualization with Louvain clustering and therefore assumes clustered data, while tools such as Monocle and SPADE assume tree-like structures, and flow-based models such as MIOFlow and Conditional Flow Matching target trajectories. Choosing which pipeline to apply is therefore often left to bioinformaticians who visually inspect datasets before selecting an analysis strategy. With the rise of agentic AI scientists, automating shape detection is increasingly important for selecting downstream analysis pipelines. To address this problem, we introduce scShapeBench, a benchmark dataset for shape detection containing both synthetic and expert-annotated single-cell datasets. Synthetic datasets are sampled from ground-truth skeleton graphs with controlled variance. Real single-cell datasets are curated from diverse sources and annotated by experts into four categories: clusters, single trajectory, multi-branching, and archetypal. We additionally introduce scReebTower, a baseline method that uses diffusion geometry to extract Reeb graphs and connect visualization with pipeline selection. We provide topology-aware evaluation metrics and compare scReebTower against PAGA and Mapper on synthetic and real data. Our results indicate that scReebTower outperforms existing baselines. Overall, our contributions span benchmarks, evaluation metrics, and a baseline for automated shape detection in single-cell data.
- Abstract(参考訳): 高次元の点雲データは、多くの科学領域、特に単細胞生物学にまたがる。
これらのデータセットの形状やトポロジは、抽出できる情報のタイプを決定する。
例えば、クラスタ化されたデータは細胞型同定をサポートし、軌道構造は遷移解析をサポートし、根尖構造は細胞の挙動の連続を捉えている。
既存の分析パイプラインは、しばしば特定の形状を仮定する。
標準的なSeuratパイプラインは、UMAP視覚化とLouvainクラスタリングを組み合わせることで、クラスタ化されたデータを想定する一方で、MonocleやSPADEといったツールがツリーのような構造を前提としており、MIOFlowやConditional Flow Matchingといったフローベースモデルがターゲットトラジェクトリを対象としています。
したがって、どのパイプラインを適用するかは、分析戦略を選択する前にデータセットを視覚的に検査するバイオインフォマティクスに委ねられる。
エージェントAI科学者の台頭により、下流分析パイプラインを選択する上で、形状検出の自動化がますます重要になっている。
この問題に対処するために、合成および専門家が注釈付けした単一セルデータセットを含む形状検出のためのベンチマークデータセットである scShapeBench を導入する。
合成データセットは、制御された分散を伴う地層構造スケルトングラフからサンプリングされる。
実際のシングルセルデータセットは、さまざまなソースからキュレーションされ、専門家によって注釈付けされ、クラスタ、単一軌道、マルチブランチ、アーキティパルの4つのカテゴリに分類される。
さらに,拡散幾何学を用いてReebグラフを抽出し,可視化とパイプライン選択を結合するベースライン手法である scReebTower を導入する。
トポロジを意識した評価指標を提供し、合成データと実データで scReebTower と PAGA と Mapper を比較した。
scReebTowerは既存のベースラインよりも優れています。
全体として、コントリビューションはベンチマーク、評価指標、単一セルデータの自動形状検出のベースラインに及びます。
関連論文リスト
- Tracing the Roots: A Multi-Agent Framework for Uncovering Data Lineage in Post-Training LLMs [81.43302841109349]
学習後のデータは、大規模言語モデル(LLM)の機能を形成する上で重要な役割を果たす
本稿では,データセット開発における進化グラフを再構築する自動マルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-12T06:24:07Z) - Feature-based morphological analysis of shape graph data [4.449113067578087]
本稿では,形状グラフデータセットの統計解析のための計算パイプラインについて紹介し,その実例を示す。
我々の目的は、データの接続構造の変化を検索し、識別するだけでなく、ネットワークブランチの幾何学的差異も得ることである。
論文 参考訳(メタデータ) (2026-02-18T01:11:15Z) - Multiscale Grassmann Manifolds for Single-Cell Data Analysis [3.073258665974412]
単セルデータ解析のためのサブスペース幾何と機械学習を統合したマルチスケールフレームワークを提案する。
パワーベーススケールサンプリング関数を導入し、スケールの選択と分解能間のバランスを制御した。
9つのベンチマークシングルセルRNA-seqデータセットの実験により、提案手法は意味のある構造を効果的に保存することを示した。
論文 参考訳(メタデータ) (2025-11-12T19:47:10Z) - Principal Curvatures Estimation with Applications to Single Cell Data [21.500812145370688]
多様体学習における一般的な方法は、データセットが下次元多様体上にあるという仮説である。
本研究では,固有曲率の様々な概念を正確に推定するデータ駆動手法であるAdaptive Local PCA(AdaL-PCA)を提案する。
試料表面におけるAdaL-PCAの評価は最先端の結果を示す。
論文 参考訳(メタデータ) (2025-02-06T03:23:31Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - SHGNN: Structure-Aware Heterogeneous Graph Neural Network [77.78459918119536]
本稿では、上記の制約に対処する構造対応不均一グラフニューラルネットワーク(SHGNN)を提案する。
まず,メタパス内の中間ノードの局所構造情報を取得するために,特徴伝搬モジュールを利用する。
次に、ツリーアテンションアグリゲータを使用して、グラフ構造情報をメタパス上のアグリゲーションモジュールに組み込む。
最後に、メタパスアグリゲータを利用して、異なるメタパスから集約された情報を融合する。
論文 参考訳(メタデータ) (2021-12-12T14:18:18Z) - Adaptive Attribute and Structure Subspace Clustering Network [49.040136530379094]
自己表現型サブスペースクラスタリングネットワークを提案する。
まず、入力データサンプルを表現する自動エンコーダについて検討する。
そこで我々は, 局所的な幾何学的構造を捉えるために, 混合符号と対称構造行列を構築した。
構築された属性構造と行列に対して自己表現を行い、親和性グラフを学習する。
論文 参考訳(メタデータ) (2021-09-28T14:00:57Z) - Joint Geometric and Topological Analysis of Hierarchical Datasets [7.098759778181621]
本稿では,複数の階層的データセットに整理された高次元データに注目する。
この研究の主な新規性は、トポロジカルデータ分析と幾何多様体学習という、2つの強力なデータ分析アプローチの組み合わせにある。
本手法は, 最新手法と比較して優れた分類結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-03T13:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。