論文の概要: Detecting Batch Heterogeneity via Likelihood Clustering
- arxiv url: http://arxiv.org/abs/2601.09758v1
- Date: Wed, 14 Jan 2026 01:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.844393
- Title: Detecting Batch Heterogeneity via Likelihood Clustering
- Title(参考訳): 類似クラスタリングによるバッチ不均一性の検出
- Authors: Austin Talbot, Yue Ke,
- Abstract要約: バッチエフェクトはゲノム診断の主要な共同創設者である。
ベイジアンモデル証拠に従ってサンプルをクラスタリングすることで,両方の制約に対処する手法を提案する。
本手法は,標準相関法や次元縮小法と比較して,クラスタリング精度が優れている。
- 参考スコア(独自算出の注目度): 0.9668407688201359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Batch effects represent a major confounder in genomic diagnostics. In copy number variant (CNV) detection from NGS, many algorithms compare read depth between test samples and a reference sample, assuming they are process-matched. When this assumption is violated, with causes ranging from reagent lot changes to multi-site processing, the reference becomes inappropriate, introducing false CNV calls or masking true pathogenic variants. Detecting such heterogeneity before downstream analysis is critical for reliable clinical interpretation. Existing batch effect detection methods either cluster samples based on raw features, risking conflation of biological signal with technical variation, or require known batch labels that are frequently unavailable. We introduce a method that addresses both limitations by clustering samples according to their Bayesian model evidence. The central insight is that evidence quantifies compatibility between data and model assumptions, technical artifacts violate assumptions and reduce evidence, whereas biological variation, including CNV status, is anticipated by the model and yields high evidence. This asymmetry provides a discriminative signal that separates batch effects from biology. We formalize heterogeneity detection as a likelihood ratio test for mixture structure in evidence space, using parametric bootstrap calibration to ensure conservative false positive rates. We validate our approach on synthetic data demonstrating proper Type I error control, three clinical targeted sequencing panels (liquid biopsy, BRCA, and thalassemia) exhibiting distinct batch effect mechanisms, and mouse electrophysiology recordings demonstrating cross-modality generalization. Our method achieves superior clustering accuracy compared to standard correlation-based and dimensionality-reduction approaches while maintaining the conservativeness required for clinical usage.
- Abstract(参考訳): バッチエフェクトはゲノム診断の主要な共同創設者である。
NGSのコピー番号変種(CNV)検出では、多くのアルゴリズムがテストサンプルと参照サンプルの読み取り深度を比較し、プロセスマッチングであると仮定する。
この仮定に違反すると、試薬のロットの変化から多地点処理まで、参照が不適切になり、偽のCNV呼び出しや真の病原性変異を隠蔽する。
下流解析の前にそのような不均一性を検出することは、信頼性の高い臨床解釈に重要である。
既存のバッチ効果検出手法は、生の特徴に基づくサンプルのクラスタ化、技術的変異による生物学的信号の融合のリスク、あるいはしばしば利用できない既知のバッチラベルを必要とする。
ベイジアンモデル証拠に従ってサンプルをクラスタリングすることで,両方の制約に対処する手法を提案する。
中心的な洞察は、証拠はデータとモデルの仮定の互換性を定量化し、技術的成果物は仮定に反し、証拠を減らし、一方、CNVの状態を含む生物学的変異はモデルによって予測され、高い証拠をもたらすということである。
この非対称性は、生物からバッチ効果を分離する識別シグナルを与える。
疑似偽陽性率を確保するために,パラメトリックブートストラップ校正法を用いて,エビデンス空間における混合構造の不均一性検出の確率比を定式化した。
本研究は, 適切なI型エラー制御を示す合成データ, 異なるバッチ効果機構を示す3つの臨床標的シークエンシングパネル(液体生検, BRCA, タラセミア), マウスの電気生理学記録によるクロスモダリティの一般化について検証した。
本手法は, 臨床応用に必要な保守性を維持しつつ, 標準相関法や次元縮小法と比較して, クラスタリング精度が向上する。
関連論文リスト
- Unlasting: Unpaired Single-Cell Multi-Perturbation Estimation by Dual Conditional Diffusion Implicit Bridges [68.98973318553983]
本稿では,Dual Diffusion Implicit Bridges (DDIB) に基づくフレームワークを提案する。
我々は、生物学的に意味のある方法で摂動シグナルを伝達するために遺伝子制御ネットワーク(GRN)情報を統合する。
また、サイレント遺伝子を予測し、生成したプロファイルの品質を向上させるためのマスキング機構も組み込んだ。
論文 参考訳(メタデータ) (2025-06-26T09:05:38Z) - A Robust Support Vector Machine Approach for Raman COVID-19 Data Classification [0.7864304771129751]
本稿では,ラマン分光法から得られた新型コロナウイルスの分類における,SVM(Support Vector Machine)のための新しいロバストな定式化の性能について検討する。
我々は、各観測の周囲の有界な不確実性集合を用いて、決定論的定式化の頑健な相反するモデルを導出する。
本手法の有効性は,イタリアの病院が提供した実世界のCOVID-19データセットで検証されている。
論文 参考訳(メタデータ) (2025-01-29T14:02:45Z) - scMEDAL for the interpretable analysis of single-cell transcriptomics data with batch effect visualization using a deep mixed effects autoencoder [3.194381706244149]
単セル混合効果Deep Autoencoder学習フレームワークである scMEDAL を提案する。
scMEDALは2つの補完ワークを使用して、バッチ不変とバッチ固有のエフェクトをモデル化する。
scMEDALは、skMEDAL-FEと確立された修正方法を補完する解釈可能なバッチ固有の埋め込みを生成する。
論文 参考訳(メタデータ) (2024-11-11T00:10:48Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Bootstrapped Edge Count Tests for Nonparametric Two-Sample Inference
Under Heterogeneity [5.8010446129208155]
両試料間の差異を正確に検出する新しい非パラメトリック試験法を開発した。
オンラインゲームにおけるユーザ行動検出のための総合シミュレーション研究と応用により,提案試験の非漸近性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-04-26T22:25:44Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。