論文の概要: Conformal Prediction Under Feedback Covariate Shift for Biomolecular Design
- arxiv url: http://arxiv.org/abs/2202.03613v5
- Date: Thu, 03 Apr 2025 18:33:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:45:45.938332
- Title: Conformal Prediction Under Feedback Covariate Shift for Biomolecular Design
- Title(参考訳): 生体分子設計のためのフィードバック共変量シフトによるコンフォーマル予測
- Authors: Clara Fannjiang, Stephen Bates, Anastasios N. Angelopoulos, Jennifer Listgarten, Michael I. Jordan,
- Abstract要約: 本稿では,トレーニングデータとテストデータが統計的に依存した環境での予測不確実性を定量化する手法を提案する。
モチベーション・ユースケースとして,本手法が設計したタンパク質の適合性予測の不確かさを定量化する方法を実データで示す。
- 参考スコア(独自算出の注目度): 56.86533144730384
- License:
- Abstract: Many applications of machine learning methods involve an iterative protocol in which data are collected, a model is trained, and then outputs of that model are used to choose what data to consider next. For example, one data-driven approach for designing proteins is to train a regression model to predict the fitness of protein sequences, then use it to propose new sequences believed to exhibit greater fitness than observed in the training data. Since validating designed sequences in the wet lab is typically costly, it is important to quantify the uncertainty in the model's predictions. This is challenging because of a characteristic type of distribution shift between the training and test data in the design setting -- one in which the training and test data are statistically dependent, as the latter is chosen based on the former. Consequently, the model's error on the test data -- that is, the designed sequences -- has an unknown and possibly complex relationship with its error on the training data. We introduce a method to quantify predictive uncertainty in such settings. We do so by constructing confidence sets for predictions that account for the dependence between the training and test data. The confidence sets we construct have finite-sample guarantees that hold for any prediction algorithm, even when a trained model chooses the test-time input distribution. As a motivating use case, we demonstrate with several real data sets how our method quantifies uncertainty for the predicted fitness of designed proteins, and can therefore be used to select design algorithms that achieve acceptable trade-offs between high predicted fitness and low predictive uncertainty.
- Abstract(参考訳): 機械学習メソッドの多くのアプリケーションは、データが収集され、モデルが訓練され、そのモデルの出力を使用して、次に考慮すべきデータを選択する。
例えば、タンパク質を設計するためのデータ駆動のアプローチは、回帰モデルをトレーニングしてタンパク質配列の適合性を予測し、トレーニングデータよりも高い適合性を示すと考えられる新しい配列を提案することである。
ウェットラボにおける設計シーケンスの検証は一般的にコストがかかるため、モデルの予測の不確実性を定量化することが重要である。
これは、トレーニングデータとテストデータの間に特徴的なタイプの分散シフトがあるためである -- 前者に基づいてトレーニングデータとテストデータが統計的に依存している場合。従って、テストデータのモデルエラー(すなわち、設計されたシーケンス)は、トレーニングデータ上のエラーと未知で、おそらくは複雑な関係を持つ。
このような環境で予測の不確実性を定量化する手法を提案する。
我々は、トレーニングデータとテストデータ間の依存性を考慮した予測のための信頼セットを構築する。
我々の構成する信頼度集合は、訓練されたモデルがテスト時間入力分布を選択した場合でも、任意の予測アルゴリズムを保持できる有限サンプル保証を持つ。
モチベーション・ユースケースとして,本手法が設計したタンパク質の適合性予測の不確実性をどのように定量するかを実データで示し,高い適合性と低い不確実性とのトレードオフを許容できる設計アルゴリズムの選択に使用できることを示す。
関連論文リスト
- Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Robust Flow-based Conformal Inference (FCI) with Statistical Guarantee [4.821312633849745]
本研究では,予測集合の構築や,複雑なデータや高次元データに対するアウトレイラの推測など,一連の共形推論手法を開発する。
ベンチマークデータセットを用いて,ロバストなフローベース共形推論手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-22T04:17:30Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - Stable Prediction with Model Misspecification and Agnostic Distribution
Shift [41.26323389341987]
機械学習アルゴリズムでは、2つの主要な仮定が性能を保証するために必要である。
1つは、トレーニングデータと同じ分布からテストデータが引き出され、もう1つは、モデルが正しく指定されていることである。
モデルのミススペクテーションの下では、トレーニングデータとテストデータの間の分布シフトは、パラメータ推定の不正確さと未知のテストデータ間の予測の不安定性をもたらす。
可変デコリレーション正規化器と重み付き回帰モデルとを協調的に最適化する新しいDecororrelated Weighting Regression (DWR)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-31T08:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。