論文の概要: Synthetic-Powered Multiple Testing with FDR Control
- arxiv url: http://arxiv.org/abs/2602.16690v1
- Date: Wed, 18 Feb 2026 18:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.685247
- Title: Synthetic-Powered Multiple Testing with FDR Control
- Title(参考訳): FDR制御による合成パワー多重試験
- Authors: Yonghoon Lee, Meshi Bashari, Edgar Dobriban, Yaniv Romano,
- Abstract要約: 合成データを安全に活用する合成多元テスト手法であるSynthBHを紹介する。
我々は,SynthBH が有限サンプル分布自由 FDR 制御を軽度PRDS型正の依存性条件下で保証することを証明した。
サンプル効率を向上し、合成データが高品質である場合には、FDRを品質に関わらずユーザ指定レベルで制御しながら、パワーを高めることができる。
- 参考スコア(独自算出の注目度): 29.516221063294157
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multiple hypothesis testing with false discovery rate (FDR) control is a fundamental problem in statistical inference, with broad applications in genomics, drug screening, and outlier detection. In many such settings, researchers may have access not only to real experimental observations but also to auxiliary or synthetic data -- from past, related experiments or generated by generative models -- that can provide additional evidence about the hypotheses of interest. We introduce SynthBH, a synthetic-powered multiple testing procedure that safely leverages such synthetic data. We prove that SynthBH guarantees finite-sample, distribution-free FDR control under a mild PRDS-type positive dependence condition, without requiring the pooled-data p-values to be valid under the null. The proposed method adapts to the (unknown) quality of the synthetic data: it enhances the sample efficiency and may boost the power when synthetic data are of high quality, while controlling the FDR at a user-specified level regardless of their quality. We demonstrate the empirical performance of SynthBH on tabular outlier detection benchmarks and on genomic analyses of drug-cancer sensitivity associations, and further study its properties through controlled experiments on simulated data.
- Abstract(参考訳): 偽発見率(FDR)制御による多重仮説テストは、統計推論における基本的な問題であり、ゲノム学、薬物スクリーニング、外乱検出に広く応用されている。
このような設定の多くでは、研究者は実際の実験観察だけでなく、過去の、関連する実験、あるいは生成モデルによって生成された、補助的または合成的なデータにもアクセスでき、興味の仮説に関する追加の証拠を与えることができる。
本稿では,合成データを安全に活用する合成多元テスト手法であるSynthBHを紹介する。
我々は、SynthBHが、プールデータp値がヌルの下で有効である必要なしに、軽度のPRDS型正の依存条件下で有限サンプル分布自由FDR制御を保証することを証明した。
提案手法は, 合成データの(未知の)品質に適応し, サンプル効率を向上し, 合成データが高品質である場合には, FDRを品質によらずユーザ指定レベルで制御しながら, パワーを高めることができる。
そこで我々は,SynthBHの表層外乱検出ベンチマークおよび薬物・がん感受性関連物質のゲノム解析における経験的性能を実証し,シミュレーションデータを用いた制御実験によりその特性について検討した。
関連論文リスト
- Statistical Inference Leveraging Synthetic Data with Distribution-Free Guarantees [27.512077526249524]
高品質な合成データは、統計的推測の機会と課題の両方を提示する。
本稿では,任意の統計的推論手順をラップするGEneral Synthetic-Powered Inferenceフレームワークを提案する。
我々のフレームワークは、高品質な合成データを活用して統計的パワーを向上するが、実際のデータのみを用いて標準推論法に適応的にデフォルトとする。
論文 参考訳(メタデータ) (2025-09-24T17:37:14Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Does Differentially Private Synthetic Data Lead to Synthetic Discoveries? [1.9573380763700712]
評価は、テストのタイプIとタイプIIのエラーの観点から行われる。
評価結果の大部分は,特にプライバシー予算が$epsilonleq 1$である場合に,I型エラーが劇的に膨らんだ。
論文 参考訳(メタデータ) (2024-03-20T14:03:57Z) - The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。
以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文 参考訳(メタデータ) (2023-12-13T02:04:41Z) - On Synthetic Data for Back Translation [66.6342561585953]
逆翻訳(BT)はNTT研究分野において最も重要な技術の一つである。
バックトランスレーションNMTの性能を制御する合成データには,品質と重要性の2つの重要な要素を同定する。
そこで本研究では,BTの性能向上のために,両因子のトレードオフを改善するため,合成データを生成するための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-20T17:24:12Z) - Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty
Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。
このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。
我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-30T01:01:36Z) - Epistemic Parity: Reproducibility as an Evaluation Metric for
Differential Privacy [9.755020926517291]
本稿では,プロキシタスクの表現性に関する仮定を回避した合成データの評価手法を提案する。
著者が合成データを使用した場合、公表された結論が変わる可能性を測定する。
我々は、より強力なユーティリティ保証を支持し、プライバシー保護を提供する新しい種類のメカニズムを提唱する。
論文 参考訳(メタデータ) (2022-08-26T14:57:21Z) - BeCAPTCHA-Type: Biometric Keystroke Data Generation for Improved Bot
Detection [63.447493500066045]
本研究では,キーストローク生体データ合成のためのデータ駆動学習モデルを提案する。
提案手法は,ユニバーサルモデルとユーザ依存モデルに基づく2つの統計的手法と比較する。
実験フレームワークでは16万件の被験者から1億3600万件のキーストロークイベントのデータセットについて検討している。
論文 参考訳(メタデータ) (2022-07-27T09:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。