論文の概要: DOGMA: Weaving Structural Information into Data-centric Single-cell Transcriptomics Analysis
- arxiv url: http://arxiv.org/abs/2602.01839v1
- Date: Mon, 02 Feb 2026 09:10:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.028111
- Title: DOGMA: Weaving Structural Information into Data-centric Single-cell Transcriptomics Analysis
- Title(参考訳): DOGMA:構造情報をデータ中心単細胞転写解析に織り込む
- Authors: Ru Zhang, Xunkai Li, Yaxin Deng, Sicheng Liu, Daohan Su, Qiangqiang Dai, Hongchao Qin, Rong-Hua Li, Guoren Wang, Jia Li,
- Abstract要約: 生データの構造的再構成と意味的拡張を目的としたデータ中心型フレームワークであるDOGMAを提案する。
複雑な多種多様なベンチマークにおいて、DOGMA SOTA性能は優れたゼロショットロバスト性とサンプル効率を示す。
- 参考スコア(独自算出の注目度): 43.565183518761984
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, data-centric AI methodology has been a dominant paradigm in single-cell transcriptomics analysis, which treats data representation rather than model complexity as the fundamental bottleneck. In the review of current studies, earlier sequence methods treat cells as independent entities and adapt prevalent ML models to analyze their directly inherited sequence data. Despite their simplicity and intuition, these methods overlook the latent intercellular relationships driven by the functional mechanisms of biological systems and the inherent quality issues of the raw sequence data. Therefore, a series of structured methods has emerged. Although they employ various heuristic rules to capture intricate intercellular relationships and enhance the raw sequencing data, these methods often neglect biological prior knowledge. This omission incurs substantial overhead and yields suboptimal graph representations, thereby hindering the utility of ML models. To address them, we propose DOGMA, a holistic data-centric framework designed for the structural reshaping and semantic enhancement of raw data through multi-level biological prior knowledge. Transcending reliance on stochastic heuristics, DOGMA redefines graph construction by integrating Statistical Anchors with Cell Ontology and Phylogenetic Trees to enable deterministic structure discovery and robust cross-species alignment. Furthermore, Gene Ontology is utilized to bridge the feature-level semantic gap by incorporating functional priors. In complex multi-species and multi-organ benchmarks, DOGMA achieves SOTA performance, exhibiting superior zero-shot robustness and sample efficiency while operating with significantly lower computational cost.
- Abstract(参考訳): 近年、データ中心型AI手法は、モデル複雑性よりもデータ表現を基本的なボトルネックとして扱う単細胞転写学分析において、支配的なパラダイムとなっている。
最近の研究のレビューにおいて、初期の配列法は、細胞を独立した実体として扱い、一般的なMLモデルを適用して、それらの直接的に継承されたシーケンスデータを分析する。
その単純さと直感にもかかわらず、これらの手法は生物学的システムの機能的メカニズムと生の配列データの本質的な品質問題によって引き起こされる潜伏する細胞間関係を見落としている。
そのため、一連の構造的手法が出現した。
彼らは複雑な細胞間関係を捉え、生のシークエンシングデータを強化するために様々なヒューリスティックなルールを採用しているが、これらの手法は生物学的事前知識を無視することが多い。
この省略は、かなりのオーバーヘッドを発生させ、最適化されたグラフ表現をもたらすため、MLモデルの実用性を阻害する。
そこで本研究では,多段階の生物学的事前知識による生データの構造化と意味的拡張を目的とした,総合的なデータ中心型フレームワークであるDOGMAを提案する。
確率的ヒューリスティックスに依存して、DOGMAは統計アンカーと細胞オントロジーと系統樹を統合してグラフ構築を再定義し、決定論的構造発見と堅牢なクロス種アライメントを可能にする。
さらに、Gene Ontologyは機能的事前を組み込むことで特徴レベルのセマンティックギャップをブリッジするために利用される。
複雑な多種多様なベンチマークにおいて、DOGMAはSOTA性能を達成し、計算コストを大幅に削減しながら、ゼロショットの堅牢性とサンプル効率が優れている。
関連論文リスト
- Information-theoretic Quantification of High-order Feature Effects in Classification Problems [0.19791587637442676]
特徴重要度(Hi-Fi)法における高次相互作用の情報理論拡張について述べる。
私たちのフレームワークは、機能のコントリビューションをユニークでシナジスティックで冗長なコンポーネントに分解します。
その結果,提案した推定器は理論的および予測された結果を正確に復元することがわかった。
論文 参考訳(メタデータ) (2025-07-06T11:50:30Z) - GENERator: A Long-Context Generative Genomic Foundation Model [66.46537421135996]
本稿では,98k塩基対 (bp) と1.2Bパラメータからなるゲノム基盤モデル GENERator を提案する。
DNAの386Bbpからなる拡張データセットに基づいて、GENERatorは、確立されたベンチマークと新しく提案されたベンチマークの両方で最先端のパフォーマンスを実証する。
また、特に特定のアクティビティプロファイルを持つエンハンサーシーケンスを即応的に生成することで、シーケンス最適化において大きな可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-11T05:39:49Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Exploring The Potential Of GANs In Biological Sequence Analysis [0.966840768820136]
本稿では,GAN(Generative Adversarial Networks)に基づくデータ不均衡問題に対する新しいアプローチを提案する。
GANは、実際のデータとよく似た合成データを生成するために利用される。
3つの異なるシーケンスデータセットを用いて3つの異なる分類タスクを実行する。
論文 参考訳(メタデータ) (2023-03-04T13:46:45Z) - Learning Causal Representations of Single Cells via Sparse Mechanism
Shift Modeling [3.2435888122704037]
本稿では,各摂動を未知の,しかしスパースな,潜伏変数のサブセットを標的とした介入として扱う単一細胞遺伝子発現データの深部生成モデルを提案する。
これらの手法をシミュレーションした単一セルデータ上でベンチマークし、潜伏単位回復、因果的目標同定、領域外一般化における性能を評価する。
論文 参考訳(メタデータ) (2022-11-07T15:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。