論文の概要: Conformal prediction for the design problem
- arxiv url: http://arxiv.org/abs/2202.03613v2
- Date: Thu, 10 Feb 2022 07:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 12:58:58.930354
- Title: Conformal prediction for the design problem
- Title(参考訳): 設計問題に対する共形予測
- Authors: Clara Fannjiang, Stephen Bates, Anastasios Angelopoulos, Jennifer
Listgarten, Michael I. Jordan
- Abstract要約: 機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
- 参考スコア(独自算出の注目度): 72.14982816083297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world deployments of machine learning, we use a prediction
algorithm to choose what data to test next. For example, in the protein design
problem, we have a regression model that predicts some real-valued property of
a protein sequence, which we use to propose new sequences believed to exhibit
higher property values than observed in the training data. Since validating
designed sequences in the wet lab is typically costly, it is important to know
how much we can trust the model's predictions. In such settings, however, there
is a distinct type of distribution shift between the training and test data:
one where the training and test data are statistically dependent, as the latter
is chosen based on the former. Consequently, the model's error on the test data
-- that is, the designed sequences -- has some non-trivial relationship with
its error on the training data. Herein, we introduce a method to quantify
predictive uncertainty in such settings. We do so by constructing confidence
sets for predictions that account for the dependence between the training and
test data. The confidence sets we construct have finite-sample guarantees that
hold for any prediction algorithm, even when a trained model chooses the
test-time input distribution. As a motivating use case, we demonstrate how our
method quantifies uncertainty for the predicted fitness of designed protein
using real data sets.
- Abstract(参考訳): 機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
例えば、タンパク質設計問題において、タンパク質配列の実際の値特性を予測する回帰モデルがあり、トレーニングデータで観測されるよりも高い特性値を示すと考えられる新しい配列を提案する。
ウェットラボにおける設計シーケンスの検証は一般的にコストがかかるため、モデルの予測をどれだけ信頼できるかを知ることが重要である。
しかし、そのような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある:トレーニングデータとテストデータが統計的に依存している場合、後者が前者に基づいて選択される。
したがって、テストデータ(すなわち、設計されたシーケンス)におけるモデルのエラーは、トレーニングデータに対するエラーと非自明な関係を持つ。
そこで本研究では,予測の不確かさを定量化する手法を提案する。
我々は、トレーニングデータとテストデータ間の依存性を考慮した予測のための信頼セットを構築する。
我々の構成する信頼度集合は、訓練されたモデルがテスト時間入力分布を選択した場合でも、任意の予測アルゴリズムを保持できる有限サンプル保証を持つ。
モチベーション・ユース・ケースとして,本手法が実際のデータセットを用いて設計したタンパク質の適合性を予測する方法を示す。
関連論文リスト
- Provably Reliable Conformal Prediction Sets in the Presence of Data Poisoning [53.42244686183879]
コンフォーマル予測は、モデルに依存しない、分布のない不確実性定量化を提供する。
しかし、敵が訓練データと校正データを操作した場合の毒殺攻撃では、共形予測は信頼性が低い。
信頼性予測セット (RPS): 汚染下での信頼性保証を証明可能な共形予測セットを構築するための最初の効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:37:11Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Quantification of Predictive Uncertainty via Inference-Time Sampling [57.749601811982096]
本稿では,データあいまいさの予測不確実性を推定するためのポストホックサンプリング手法を提案する。
この方法は与えられた入力に対して異なる可算出力を生成することができ、予測分布のパラメトリック形式を仮定しない。
論文 参考訳(メタデータ) (2023-08-03T12:43:21Z) - Robust Flow-based Conformal Inference (FCI) with Statistical Guarantee [4.821312633849745]
本研究では,予測集合の構築や,複雑なデータや高次元データに対するアウトレイラの推測など,一連の共形推論手法を開発する。
ベンチマークデータセットを用いて,ロバストなフローベース共形推論手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-22T04:17:30Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Robust Validation: Confident Predictions Even When Distributions Shift [19.327409270934474]
本稿では,モデルが点予測ではなく,その予測に対して不確実な推定を行うような,頑健な予測推論の手順について述べる。
本稿では, トレーニング集団の周囲に$f$-divergence のボールを用いて, 任意のテスト分布に対して適切なカバレッジレベルを与える予測セットを生成する手法を提案する。
私たちの方法論の重要な構成要素は、将来のデータシフトの量を見積り、それに対する堅牢性を構築することです。
論文 参考訳(メタデータ) (2020-08-10T17:09:16Z) - Balance-Subsampled Stable Prediction [55.13512328954456]
本稿では, 分数分解設計理論に基づく新しいバランスサブサンプル安定予測法を提案する。
設計理論解析により,提案手法は分布シフトによって誘導される予測器間の共起効果を低減できることを示した。
合成および実世界の両方のデータセットに関する数値実験により、BSSPアルゴリズムは未知のテストデータ間で安定した予測を行うためのベースライン法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2020-06-08T07:01:38Z) - Stable Prediction with Model Misspecification and Agnostic Distribution
Shift [41.26323389341987]
機械学習アルゴリズムでは、2つの主要な仮定が性能を保証するために必要である。
1つは、トレーニングデータと同じ分布からテストデータが引き出され、もう1つは、モデルが正しく指定されていることである。
モデルのミススペクテーションの下では、トレーニングデータとテストデータの間の分布シフトは、パラメータ推定の不正確さと未知のテストデータ間の予測の不安定性をもたらす。
可変デコリレーション正規化器と重み付き回帰モデルとを協調的に最適化する新しいDecororrelated Weighting Regression (DWR)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-31T08:56:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。