論文の概要: High-dimensional Statistics Applications to Batch Effects in Metabolomics
- arxiv url: http://arxiv.org/abs/2412.10196v1
- Date: Fri, 13 Dec 2024 15:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:01.487592
- Title: High-dimensional Statistics Applications to Batch Effects in Metabolomics
- Title(参考訳): 代謝学におけるバッチ効果の高次元統計応用
- Authors: Zhendong Guo,
- Abstract要約: 大規模な代謝学ではバッチ効果は避けられない。
品質制御に基づく同時テスト(QC-ST)と共分散補正(CoCo)を提案する。
QC-STは、異なるバッチ間でQCサンプルの平均ベクトルと共分散行列の統計的意義を同時に検出することができる。
- 参考スコア(独自算出の注目度): 0.4834684822950222
- License:
- Abstract: Batch effects are inevitable in large-scale metabolomics. Prior to formal data analysis, batch effect correction (BEC) is applied to prevent from obscuring biological variations, and batch effect evaluation (BEE) is used for correction assessment. However, existing BEE algorithms neglect covariances between the variables, and existing BEC algorithms might fail to adequately correct the covariances. Therefore, we resort to recent advancements in high-dimensional statistics, and respectively propose "quality control-based simultaneous tests (QC-ST)" and "covariance correction (CoCo)". Validated by the simulation data, QC-ST can simultaneously detect the statistical significance of QC samples' mean vectors and covariance matrices across different batches, and has a satisfactory statistical performance in empirical sizes, empirical powers, and computational speed. Then, we apply four QC-based BEC algorithms to two large cohort datasets, and find that extreme gradient boost (XGBoost) performs best in relative standard deviation (RSD) and dispersion-ratio (D-ratio). After prepositive BEC, if QC-ST still suggests that batch effects between some two batches are significant, CoCo should be implemented. And after CoCo (if necessary), the four metrics (i.e., RSD, D-ratio, classification performance, and QC-ST) might be further improved. In summary, under the guidance of QC-ST, we can develop a matching strategy to integrate multiple BEC algorithms more rationally and flexibly, and minimize batch effects for reliable biological conclusions.
- Abstract(参考訳): 大規模な代謝学ではバッチ効果は避けられない。
正式なデータ解析に先立ち、生物学的変異を隠蔽するためにバッチ効果補正(BEC)を適用し、修正評価にはバッチ効果評価(BEE)を用いる。
しかし、既存のBEEアルゴリズムは変数間の共分散を無視し、既存のBECアルゴリズムは共分散を適切に補正することができない。
そこで我々は,近年の高次元統計学の進歩を活用し,それぞれ「品質制御に基づく同時試験(QC-ST)」と「共分散補正(CoCo)」を提案する。
シミュレーションデータによって検証されたQC-STは、異なるバッチにわたるQCサンプルの平均ベクトルと共分散行列の統計的意義を同時に検出でき、経験的サイズ、経験的パワー、計算速度において十分な統計性能を有する。
次に、4つのQCベースのBECアルゴリズムを2つの大きなコホートデータセットに適用し、極度勾配ブースト(XGBoost)が相対標準偏差(RSD)と分散比(D-ratio)において最適であることを示す。
前向きなBECの後、もしQC-STがいくつかの2つのバッチ間のバッチ効果が重要であることをまだ示唆しているなら、CoCoを実装すべきである。
そして、CoCo(必要ならば)の4指標(RSD、D比、分類性能、QC-ST)をさらに改善する可能性がある。
まとめると、QC-STの指導のもと、複数のBECアルゴリズムをより合理的かつ柔軟に統合し、信頼性の高い生物学的結論に対するバッチ効果を最小化するためのマッチング戦略を開発することができる。
関連論文リスト
- Adapting Conformal Prediction to Distribution Shifts Without Labels [16.478151550456804]
コンフォーマル予測(CP)により、機械学習モデルは、保証されたカバレッジ率で予測セットを出力できる。
我々の目標は、テストドメインからのラベルなしデータのみを使用して、CP生成予測セットの品質を改善することです。
これは、未ラベルテストデータに対するベースモデルの不確実性に応じてCPのスコア関数を調整する、ECP と EACP と呼ばれる2つの新しい手法によって達成される。
論文 参考訳(メタデータ) (2024-06-03T15:16:02Z) - Trade-off between Bagging and Boosting for quantum
separability-entanglement classification [0.0]
量子分離性問題に対するランダムアンダーサンプリングブースターCHA(RUSBCHA)の長所と短所を比較した。
結果は、RUSBCHAがBCHAアプローチに代わるものであることを示唆している。
論文 参考訳(メタデータ) (2024-01-22T15:29:35Z) - Bayesian Prognostic Covariate Adjustment With Additive Mixture Priors [0.3749861135832073]
本稿では,ベイジアン・プロコバと呼ばれる新しいベイジアン確率的共変量補正手法を提案する。
RCT参加者のためのデジタルツインジェネレータ(DTG)を構成する生成人工知能(AI)アルゴリズムに基づいている。
DTGは、履歴制御データに基づいてトレーニングされ、制御処理により各RTT参加者の結果に対してデジタルツイン(DT)確率分布を生成する。
後部分布から抽出する効率的なギブスアルゴリズムを確立し, 後部平均に対するクローズドフォーム表現と, 処理効果パラメータの重みに対する分散を導出する。
論文 参考訳(メタデータ) (2023-10-27T10:05:06Z) - Prominent Roles of Conditionally Invariant Components in Domain Adaptation: Theory and Algorithms [10.949415951813661]
ドメイン適応(DA)は、モデルを訓練するために使用されるソースデータの分布が、モデルを評価するために使用されるターゲットデータと異なるときに発生する統計的学習問題である。
我々は、条件不変成分(CIC)が予測に関係していることを示し、条件不変成分をソースデータとターゲットデータ間で保持することを示す。
我々は,CICに基づく新しいアルゴリズム,重要度重み付き条件不変ペナルティ(IW-CIP)を提案する。
論文 参考訳(メタデータ) (2023-09-19T04:04:59Z) - Multi-kernel Correntropy-based Orientation Estimation of IMUs: Gradient
Descent Methods [3.8286082196845466]
コレントロピーに基づく降下勾配(CGD)とコレントロピーに基づく非結合配向推定(CDOE)
従来の方法は平均二乗誤差(MSE)基準に依存しており、外部加速度や磁気干渉に弱い。
新しいアルゴリズムは、カルマンフィルタベースのアプローチよりも計算の複雑さが著しく低いことを示している。
論文 参考訳(メタデータ) (2023-04-13T13:57:33Z) - Evaluating Probabilistic Classifiers: The Triptych [62.997667081978825]
本稿では,予測性能の異なる相補的な側面に焦点をあてた診断グラフィックのトリチチを提案し,研究する。
信頼性図は校正に対処し、受信動作特性(ROC)曲線は識別能力を診断し、マーフィー図は全体的な予測性能と価値を視覚化する。
論文 参考訳(メタデータ) (2023-01-25T19:35:23Z) - Orthogonal SVD Covariance Conditioning and Latent Disentanglement [65.67315418971688]
SVDメタ層をニューラルネットワークに挿入すると、共分散が不調和になる。
我々は最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-12-11T20:31:31Z) - Bayes risk CTC: Controllable CTC alignment in Sequence-to-Sequence tasks [63.189632935619535]
予測アライメントの望ましい特性を強制するためにベイズリスクCTC(BRCTC)を提案する。
BRCTCを他の早期排出の選好と組み合わせることで、オンラインモデルの性能・遅延トレードオフが改善される。
論文 参考訳(メタデータ) (2022-10-14T03:55:36Z) - Improving Covariance Conditioning of the SVD Meta-layer by Orthogonality [65.67315418971688]
最寄り直交勾配(NOG)と最適学習率(OLR)を提案する。
視覚認識実験は,共分散条件と一般化を同時に改善できることを実証した。
論文 参考訳(メタデータ) (2022-07-05T15:39:29Z) - Performance Evaluation of Adversarial Attacks: Discrepancies and
Solutions [51.8695223602729]
機械学習モデルの堅牢性に挑戦するために、敵対攻撃方法が開発されました。
本稿では,Piece-wise Sampling Curving(PSC)ツールキットを提案する。
psc toolkitは計算コストと評価効率のバランスをとるオプションを提供する。
論文 参考訳(メタデータ) (2021-04-22T14:36:51Z) - Calibration of Neural Networks using Splines [51.42640515410253]
キャリブレーション誤差の測定は、2つの経験的分布を比較します。
古典的コルモゴロフ・スミルノフ統計テスト(KS)にインスパイアされたビンニングフリーキャリブレーション尺度を導入する。
提案手法は,KS誤差に対する既存の手法と,他の一般的なキャリブレーション手法とを一貫して比較する。
論文 参考訳(メタデータ) (2020-06-23T07:18:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。