論文の概要: Validating GWAS Findings through Reverse Engineering of Contingency Tables
- arxiv url: http://arxiv.org/abs/2411.11169v1
- Date: Sun, 17 Nov 2024 20:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:31:43.975799
- Title: Validating GWAS Findings through Reverse Engineering of Contingency Tables
- Title(参考訳): 並行テーブルのリバースエンジニアリングによるGWAS検索の検証
- Authors: Yuzhou Jiang, Erman Ayday,
- Abstract要約: 本稿では,データセット共有を必要とせずに意図しない誤りを検出するGWAS検証手法を提案する。
提案手法は, GWAS結果から得られるp値を利用して, 単一ヌクレオチド多型(SNP)の一致度を推定する。
信頼性の高いしきい値に該当する結果を検証し、しきい値を超える結果を警告し、さらなる検査を行う。
- 参考スコア(独自算出の注目度): 2.107610564835429
- License:
- Abstract: Reproducibility in genome-wide association studies (GWAS) is crucial for ensuring reliable genomic research outcomes. However, limited access to original genomic datasets (mainly due to privacy concerns) prevents researchers from reproducing experiments to validate results. In this paper, we propose a novel method for GWAS reproducibility validation that detects unintentional errors without the need for dataset sharing. Our approach leverages p-values from GWAS outcome reports to estimate contingency tables for each single nucleotide polymorphism (SNP) and calculates the Hamming distance between the minor allele frequencies (MAFs) derived from these contingency tables and publicly available phenotype-specific MAF data. By comparing the average Hamming distance, we validate results that fall within a trusted threshold as reliable, while flagging those that exceed the threshold for further inspection. This approach not only allows researchers to validate the correctness of GWAS findings of other researchers, but it also provides a self-check step for the researchers before they publish their findings. We evaluate our approach using three real-life SNP datasets from OpenSNP, showing its ability to detect unintentional errors effectively, even when small errors occur, such as 1\% of SNPs being reported incorrectly. This novel validation technique offers a promising solution to the GWAS reproducibility challenge, balancing the need for rigorous validation with the imperative of protecting sensitive genomic data, thereby enhancing trust and accuracy in genetic research.
- Abstract(参考訳): ゲノムワイド・アソシエーション研究(GWAS)の再現性は、信頼できるゲノム研究成果の確保に不可欠である。
しかし、元のゲノムデータセット(主にプライバシー上の懸念から)へのアクセスが限られているため、研究者は実験を再現して結果を検証することができない。
本稿では,データセット共有を必要とせずに意図しない誤りを検出するGWAS再現性検証手法を提案する。
提案手法は, GWAS結果から得られるp値を利用して, 単一ヌクレオチド多型 (SNP) 毎のコンチテンシーテーブルを推定し, これらのコンティテンシーテーブルから得られるマイナーアレル周波数 (MAF) と表現型固有MAFデータとのハミング距離を算出する。
平均ハミング距離を比較することで、信頼しきい値に該当する結果を信頼性として検証し、しきい値を超えるものを警告し、さらなる検査を行う。
このアプローチは、研究者が他の研究者のGWAS発見の正当性を検証するだけでなく、発見を公表する前に、研究者に自己チェックのステップを提供する。
提案手法は,OpenSNPの3つの実生活SNPデータセットを用いて評価し,誤報したSNPの1\%などの小さなエラーが発生した場合でも,意図しない誤りを効果的に検出できることを示す。
この新しいバリデーション技術は、GWAS再現性課題に対する有望な解決策を提供し、厳格なバリデーションの必要性と、機密ゲノムデータ保護の必須条件とをバランスさせ、遺伝研究における信頼性と精度を高める。
関連論文リスト
- Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [55.17761802332469]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。
本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文 参考訳(メタデータ) (2024-03-18T05:49:45Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - TriSig: Assessing the statistical significance of triclusters [2.064612766965483]
本研究は、テンソルデータのパターンの確率を評価するための統計的枠組みを提案し、ヌル期待から逸脱する。
偽陽性発見のための二項検定に関する総合的な議論が欠かせない。
バイオケミカルおよびバイオテクノロジー分野における、異なる実世界のケーススタディに対する最先端のトリクラスタリングアルゴリズムの適用から得られた結果。
論文 参考訳(メタデータ) (2023-06-01T13:08:54Z) - Falsification before Extrapolation in Causal Effect Estimation [6.715453431174765]
個体群における因果関係は、しばしば観測データを用いて推定される。
本稿では,偏りのある観測推定を拒否するメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-27T21:47:23Z) - Reproducibility-Oriented and Privacy-Preserving Genomic Dataset Sharing [8.959228247984337]
本稿では,ゲノムデータセットを共有するための差分プライバシに基づく手法を提案する。
提案手法は, GWAS結果の誤り検出における他の手法よりも優れ, 有効性が向上し, メンバーシップ推論攻撃(MIA)に対するプライバシー保護が向上することを示す。
この手法を利用することで、ゲノム研究者は、データセットの高品質なバージョンを、相違なくプライベートに共有する傾向にある。
論文 参考訳(メタデータ) (2022-09-13T22:20:41Z) - Adaptive novelty detection with false discovery rate guarantee [1.8249324194382757]
有限標本における検出された新規性に対する偽発見率(FDR)を柔軟に制御する手法を提案する。
複数のテスト文献に触発されて、nullの割合に適応するAdaDetectの変種を提案する。
これらの手法は、天体物理学の応用を含む、合成データセットと実世界のデータセットに説明される。
論文 参考訳(メタデータ) (2022-08-13T17:14:55Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - UNITE: Uncertainty-based Health Risk Prediction Leveraging Multi-sourced
Data [81.00385374948125]
我々はUNcertaInTyベースのhEalth Risk Prediction(UNITE)モデルを提案する。
UNITEは、複数ソースの健康データを活用した正確な疾患リスク予測と不確実性推定を提供する。
非アルコール性脂肪肝疾患(NASH)とアルツハイマー病(AD)の実態予測タスクにおけるUNITEの評価を行った。
UNITEはAD検出のF1スコアで最大0.841点、NASH検出のPR-AUCで最大0.609点を達成し、最高のベースラインで最大19%の高パフォーマンスを達成している。
論文 参考訳(メタデータ) (2020-10-22T02:28:11Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Uncertainty-Gated Stochastic Sequential Model for EHR Mortality
Prediction [6.170898159041278]
本稿では,欠落変数の分布を推定し,隠れ状態の更新を行い,院内死亡の可能性を予測できる新しい変動再帰ネットワークを提案する。
我々のモデルは、これらの手順を1つのストリームで実行し、エンドツーエンドで全てのネットワークパラメータを共同で学習できることは注目に値する。
論文 参考訳(メタデータ) (2020-03-02T04:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。