論文の概要: A Multi-Evidence Framework Rescues Low-Power Prognostic Signals and Rejects Statistical Artifacts in Cancer Genomics
- arxiv url: http://arxiv.org/abs/2510.18571v1
- Date: Tue, 21 Oct 2025 12:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.46923
- Title: A Multi-Evidence Framework Rescues Low-Power Prognostic Signals and Rejects Statistical Artifacts in Cancer Genomics
- Title(参考訳): マルチエビデンス・フレームワークによる低出力予後信号の救済と癌ゲノムにおける統計的アーティファクトの排除
- Authors: Gokturk Aytug Akarlar,
- Abstract要約: 我々は低出力癌コホートを解析するためのフレームワークを開発した。
我々のフレームワークは, RYR2を名目上の意義にもかかわらず偽陽性と正しく同定した。
KMT2Cは、限界的な重要性にもかかわらず、検証を必要とする複雑な候補として同定された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivation: Standard genome-wide association studies in cancer genomics rely on statistical significance with multiple testing correction, but systematically fail in underpowered cohorts. In TCGA breast cancer (n=967, 133 deaths), low event rates (13.8%) create severe power limitations, producing false negatives for known drivers and false positives for large passenger genes. Results: We developed a five-criteria computational framework integrating causal inference (inverse probability weighting, doubly robust estimation) with orthogonal biological validation (expression, mutation patterns, literature evidence). Applied to TCGA-BRCA mortality analysis, standard Cox+FDR detected zero genes at FDR<0.05, confirming complete failure in underpowered settings. Our framework correctly identified RYR2 -- a cardiac gene with no cancer function -- as a false positive despite nominal significance (p=0.024), while identifying KMT2C as a complex candidate requiring validation despite marginal significance (p=0.047, q=0.954). Power analysis revealed median power of 15.1% across genes, with KMT2C achieving only 29.8% power (HR=1.55), explaining borderline statistical significance despite strong biological evidence. The framework distinguished true signals from artifacts through mutation pattern analysis: RYR2 showed 29.8% silent mutations (passenger signature) with no hotspots, while KMT2C showed 6.7% silent mutations with 31.4% truncating variants (driver signature). This multi-evidence approach provides a template for analyzing underpowered cohorts, prioritizing biological interpretability over purely statistical significance. Availability: All code and analysis pipelines available at github.com/akarlaraytu/causal-inference-for-cancer-genomics
- Abstract(参考訳): モチベーション(Motivation): がんゲノム学における標準ゲノムワイド・アソシエーション(英語版)の研究は、複数の検査の修正を伴う統計的意義に頼っているが、系統的には低出力コホートで失敗する。
TCGA乳がん(n=967,133人死亡)では、低い事象率(13.8%)が深刻なパワー制限を生じ、既知のドライバーには偽陰性、大きな乗客遺伝子には偽陽性を生じる。
結果: 因果推論(逆確率重み付け, 二重頑健な推定)と直交生物学的検証(表現, 突然変異パターン, 文献的証拠)を併用した5基準計算フレームワークを開発した。
TCGA-BRCA死亡率分析では、標準のCox+FDRはFDR<0.05でゼロ遺伝子を検出し、低電力環境下での完全な失敗を確認した。
KMT2Cは有意な有意性にもかかわらず偽陽性であり(p=0.024)、KMT2Cは有意な有意性にもかかわらず検証を必要とする複雑な候補である(p=0.047, q=0.954)。
KMT2Cは29.8%のパワー(HR=1.55)しか達成せず、強い生物学的証拠にもかかわらず境界線の統計的意義を説明する。
RYR2は29.8%の無声突然変異(パステンガーシグネチャ)とホットスポットを持たないが、KMT2Cは6.7%の無声突然変異と31.4%の無声変種(ドライバシグネチャ)を示した。
このマルチエビデンスアプローチは、純粋に統計的に重要な生物学的解釈性を優先して、低出力コホートを解析するためのテンプレートを提供する。
可用性:github.com/akarlaraytu/causal-inference-for-cancer-genomicsで利用可能なすべてのコードと分析パイプライン
関連論文リスト
- DNABERT-2: Fine-Tuning a Genomic Language Model for Colorectal Gene Enhancer Classification [0.0]
DNABERT-2は、DNAから可変長トークンを学習するためにバイトペアエンコーディングを使用するトランスフォーマーゲノム言語モデルである。
遺伝子エンハンサーは、いつ、どこで遺伝子がスイッチされるかを制御するが、その配列の多様性と組織特異性は、大腸癌の特定を困難にしている。
大腸癌におけるBPEトークン化を用いた第2世代のゲノム言語モデルを適用した最初の研究である。
論文 参考訳(メタデータ) (2025-09-28T16:10:03Z) - PhenoKG: Knowledge Graph-Driven Gene Discovery and Patient Insights from Phenotypes Alone [40.61937241424789]
本稿では,患者表現型から因果遺伝子を予測するためのグラフベースのアプローチを提案する。
我々のモデルは、グラフニューラルネットワークとトランスフォーマーを組み合わせることで、現在の最先端技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-16T05:54:12Z) - Uncertainty-Aware Genomic Classification of Alzheimer's Disease: A Transformer-Based Ensemble Approach with Monte Carlo Dropout [0.0]
アルツハイマー病(英語版) (AD) は遺伝学的に複雑であり、ゲノムデータも複雑である。
我々はモンテカルロ・ドロップアウトを用いた変圧器を用いたアンサンブルモデル(TrUENet)を開発した。
論文 参考訳(メタデータ) (2025-05-31T18:20:49Z) - Improving statistical learning methods via features selection without replacement sampling and random projection [0.680740878601496]
癌は、正常な遺伝子発現を阻害する遺伝学的およびエピジェネティックな変化を特徴とする遺伝疾患である。
高次元マイクロアレイデータセットは、「小さいn、大きなp」問題のために分類モデルに挑戦する。
本研究は癌バイオマーカーの発見に寄与し,マイクロアレイデータ解析のための堅牢な計算手法を提供する。
論文 参考訳(メタデータ) (2025-05-28T22:36:46Z) - Graph Structure Learning for Tumor Microenvironment with Cell Type Annotation from non-spatial scRNA-seq data [6.432270457083369]
本稿では,細胞型予測と細胞間相互作用解析を強化する新しいグラフニューラルネットワーク(GNN)モデルを提案する。
提案したScGSLモデルは堅牢な性能を示し、平均精度84.83%、精度86.23%、リコール81.51%、F1スコア80.92%を全データセットで達成した。
論文 参考訳(メタデータ) (2025-02-04T18:28:25Z) - CRTRE: Causal Rule Generation with Target Trial Emulation Framework [47.2836994469923]
ターゲットトライアルエミュレーションフレームワーク(CRTRE)を用いた因果ルール生成という新しい手法を提案する。
CRTREは、アソシエーションルールの因果効果を推定するためにランダム化トライアル設計原則を適用している。
次に、病気発症予測などの下流アプリケーションにそのような関連ルールを組み込む。
論文 参考訳(メタデータ) (2024-11-10T02:40:06Z) - Assessing Concordance between RNA-Seq and NanoString Technologies in Ebola-Infected Nonhuman Primates Using Machine Learning [0.0]
エボラウイルス(EBOV)感染非ヒト霊長類の遺伝子発現解析におけるRNAシークエンシング(RNA-Seq)とNanoString技術の比較を行った。
ナノストリングデータに基づいてトレーニングされたSupervised Magnitude-Altitude Scoring (SMAS) 手法を用いた機械学習手法では,RT-qPCR陽性を陰性試料と区別する鍵マーカーとしてOAS1が同定された。
OAS1はまた、ロジスティック回帰を用いて感染していないサンプルの識別を100%精度で達成し、プラットフォーム間の堅牢性を実証した。
論文 参考訳(メタデータ) (2024-10-30T20:21:20Z) - Using Pre-training and Interaction Modeling for ancestry-specific disease prediction in UK Biobank [69.90493129893112]
近年のゲノムワイド・アソシエーション(GWAS)研究は、複雑な形質の遺伝的基盤を明らかにしているが、非ヨーロッパ系個体の低発現を示している。
そこで本研究では,マルチオミクスデータを用いて,多様な祖先間での疾患予測を改善することができるかを評価する。
論文 参考訳(メタデータ) (2024-04-26T16:39:50Z) - Cancer Gene Profiling through Unsupervised Discovery [49.28556294619424]
低次元遺伝子バイオマーカーを発見するための,新しい,自動かつ教師なしのフレームワークを提案する。
本手法は,高次元中心型非監視クラスタリングアルゴリズムLP-Stabilityアルゴリズムに基づく。
私達の署名は免疫炎症および免疫砂漠の腫瘍の区別の有望な結果報告します。
論文 参考訳(メタデータ) (2021-02-11T09:04:45Z) - COVID-MTL: Multitask Learning with Shift3D and Random-weighted Loss for
Automated Diagnosis and Severity Assessment of COVID-19 [39.57518533765393]
新型コロナウイルスの正確かつ効果的な評価を支援する自動化方法が緊急に必要である。
我々は,放射線学とNATの両方において,自動かつ同時検出と重症度評価が可能なエンドツーエンドマルチタスク学習フレームワーク(COVID-MTL)を提案する。
論文 参考訳(メタデータ) (2020-12-10T08:30:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。