論文の概要: Scalable Batch Correction for Cell Painting via Batch-Dependent Kernels and Adaptive Sampling
- arxiv url: http://arxiv.org/abs/2601.22331v1
- Date: Thu, 29 Jan 2026 21:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.073601
- Title: Scalable Batch Correction for Cell Painting via Batch-Dependent Kernels and Adaptive Sampling
- Title(参考訳): バッチ依存カーネルと適応サンプリングによるセルペイントのスケーラブルバッチ補正
- Authors: Aditya Narayan Ravi, Snehal Vadvalkar, Abhishek Pandey, Ilan Shomorony,
- Abstract要約: 本稿では,バッチ間でサンプルを整列させるスケーラブルなバッチサンプリング手法であるBALANSを提案する。
BALANSはほぼ線形時間で$n$で実行されることを示す。
- 参考スコア(独自算出の注目度): 11.090378514502477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cell Painting is a microscopy-based, high-content imaging assay that produces rich morphological profiles of cells and can support drug discovery by quantifying cellular responses to chemical perturbations. At scale, however, Cell Painting data is strongly affected by batch effects arising from differences in laboratories, instruments, and protocols, which can obscure biological signal. We present BALANS (Batch Alignment via Local Affinities and Subsampling), a scalable batch-correction method that aligns samples across batches by constructing a smoothed affinity matrix from pairwise distances. Given $n$ data points, BALANS builds a sparse affinity matrix $A \in \mathbb{R}^{n \times n}$ using two ideas. (i) For points $i$ and $j$, it sets a local scale using the distance from $i$ to its $k$-th nearest neighbor within the batch of $j$, then computes $A_{ij}$ via a Gaussian kernel calibrated by these batch-aware local scales. (ii) Rather than forming all $n^2$ entries, BALANS uses an adaptive sampling procedure that prioritizes rows with low cumulative neighbor coverage and retains only the strongest affinities per row, yielding a sparse but informative approximation of $A$. We prove that this sampling strategy is order-optimal in sample complexity and provides an approximation guarantee, and we show that BALANS runs in nearly linear time in $n$. Experiments on diverse real-world Cell Painting datasets and controlled large-scale synthetic benchmarks demonstrate that BALANS scales to large collections while improving runtime over native implementations of widely used batch-correction methods, without sacrificing correction quality.
- Abstract(参考訳): セルペイント(Cell Painting)は、顕微鏡に基づく高濃度イメージング法であり、細胞の豊富な形態的プロファイルを生成し、化学摂動に対する細胞応答を定量化することによって薬物発見を支援する。
しかし、大規模なセルペイントデータは、実験室、機器、プロトコルの違いによって引き起こされるバッチ効果に強く影響され、生物学的信号が不明瞭になる可能性がある。
BALANS(Batch Alignment via Local Affinities and Subsampling)は、スムーズな親和性行列を2つの距離から構築することにより、バッチ間でサンプルを整列させるスケーラブルなバッチ補正手法である。
n$のデータポイントが与えられたとき、BALANS は2つのアイデアを使ってスパースアフィニティ行列 $A \in \mathbb{R}^{n \times n} を構築する。
i) 点 $i$ と $j$ に対して、$i$ から $k$-th に近い隣人への距離を使って局所スケールを設定し、その後、これらのバッチ対応の局所スケールによって調整されたガウスカーネルを介して$A_{ij}$を計算します。
(ii)すべての$n^2$エントリを生成する代わりに、BALANSはアダプティブ・サンプリング・プロシージャを使用して、低い累積隣りのカバレッジで行を優先順位付けし、行あたりの最も強い親和性のみを保持する。
我々は,このサンプリング戦略がサンプリング複雑性において順序最適であることが証明され,近似保証が提供されるとともに,BALANSがほぼ線形時間で$n$で実行されることを示す。
多様な実世界のセルペイントデータセットと制御された大規模合成ベンチマークの実験は、BALANSが大規模なコレクションにスケールし、修正品質を犠牲にすることなく、広く使用されているバッチ補正メソッドのネイティブ実装よりもランタイムを改善したことを示している。
関連論文リスト
- Closing the Approximation Gap of Partial AUC Optimization: A Tale of Two Formulations [121.39938773554523]
ROC曲線の下の領域(AUC)は、クラス不均衡と決定制約の両方を持つ実世界のシナリオにおける重要な評価指標である。
PAUC最適化の近似ギャップを埋めるために,2つの簡単なインスタンス単位のミニマックス修正を提案する。
得られたアルゴリズムは、サンプルサイズと典型的な一方方向と双方向のPAUCに対して$O(-2/3)$の収束率の線形パーイテレーション計算複雑性を享受する。
論文 参考訳(メタデータ) (2025-12-01T02:52:33Z) - Estimation of Toeplitz Covariance Matrices using Overparameterized Gradient Descent [1.7188280334580195]
単純降下レンズ(GD)によるToeplitz共分散推定の再検討
K = P$ のとき、GD は準最適解に収束する。
本稿では,振幅と周波数の学習率の異なる高速なGD変種を提案する。
論文 参考訳(メタデータ) (2025-11-03T14:07:53Z) - Benchmarking and optimizing organism wide single-cell RNA alignment methods [0.0]
K-Neighbors Intersection (KNI) スコアは,バッチ効果をペナライズし,セル型ラベル予測の精度を計測する単一スコアである。
本稿では,逆算学習を用いて,エンコーダとデコーダのバッチ効果をペナルライズするScVIの新たな変種として,Batch Adversarial Single-cell Variational Inference (BA-scVI)を紹介した。
得られたアライメント空間では, 細胞型グルーピングの粒度が保存され, 情報を失うことなく, 有機体型マップを単一モデルで作成できるという概念が支持される。
論文 参考訳(メタデータ) (2025-03-26T17:11:47Z) - Mitigating covariate shift in non-colocated data with learned parameter priors [0.0]
textitFragmentation-induced co-shift remediation(FIcsR$)は、フラグメントの共変量分布と標準クロスバリデーションベースラインとの$f$-divergenceを最小限にする。
複数のデータクラス、40ドル以上のデータセット、および複数のシーケンス長にわたってバッチ化されたデータに対して、広範な分類実験を行います。
バッチとフォールド・オブ・ザ・アーティファクトに対する精度は、それぞれ5%以上と10%以上向上している。
論文 参考訳(メタデータ) (2024-11-10T15:48:29Z) - Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - AdaBatchGrad: Combining Adaptive Batch Size and Adaptive Step Size [42.84471753630676]
本稿では,AdaBatchGradと呼ばれるグラディエントDescent(SGD)の新規な適応について述べる。
適応的なステップサイズと調整可能なバッチサイズをシームレスに統合する。
適応的なステップサイズと適応的なバッチサイズを導入することで、通常のSGDの性能が徐々に向上することを示す。
論文 参考訳(メタデータ) (2024-02-07T21:19:05Z) - Weighted Sparse Partial Least Squares for Joint Sample and Feature
Selection [7.219077740523681]
本稿では, 共同サンプルと特徴選択のために, $ell_infty/ell_0$-norm制約付きスパースPSS(ell_infty/ell_$-wsPLS)法を提案する。
我々は,各マルチビューwsPLSモデルに対して効率的な反復アルゴリズムを開発し,その収束性を示す。
論文 参考訳(メタデータ) (2023-08-13T10:09:25Z) - Geodesic Sinkhorn for Fast and Accurate Optimal Transport on Manifolds [53.110934987571355]
多様体グラフ上の熱核に基づく測地学的シンクホーンを提案する。
化学療法中の患者試料からの高次元単細胞データの複数分布のバリセンタの計算に本法を適用した。
論文 参考訳(メタデータ) (2022-11-02T00:51:35Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。