論文の概要: Uncertainty in Contrastive Learning: On the Predictability of Downstream
Performance
- arxiv url: http://arxiv.org/abs/2207.09336v1
- Date: Tue, 19 Jul 2022 15:44:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-20 12:57:20.351226
- Title: Uncertainty in Contrastive Learning: On the Predictability of Downstream
Performance
- Title(参考訳): コントラスト学習の不確実性:下流性能の予測可能性について
- Authors: Shervin Ardeshir and Navid Azizan
- Abstract要約: このような表現の不確実性は、単一のデータポイントに対して有意義な方法で定量化できるかどうかを考察する。
埋め込み空間におけるトレーニングデータの分布を直接推定することにより,この目標を達成することができることを示す。
- 参考スコア(独自算出の注目度): 7.411571833582691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The superior performance of some of today's state-of-the-art deep learning
models is to some extent owed to extensive (self-)supervised contrastive
pretraining on large-scale datasets. In contrastive learning, the network is
presented with pairs of positive (similar) and negative (dissimilar) datapoints
and is trained to find an embedding vector for each datapoint, i.e., a
representation, which can be further fine-tuned for various downstream tasks.
In order to safely deploy these models in critical decision-making systems, it
is crucial to equip them with a measure of their uncertainty or reliability.
However, due to the pairwise nature of training a contrastive model, and the
lack of absolute labels on the output (an abstract embedding vector), adapting
conventional uncertainty estimation techniques to such models is non-trivial.
In this work, we study whether the uncertainty of such a representation can be
quantified for a single datapoint in a meaningful way. In other words, we
explore if the downstream performance on a given datapoint is predictable,
directly from its pre-trained embedding. We show that this goal can be achieved
by directly estimating the distribution of the training data in the embedding
space and accounting for the local consistency of the representations. Our
experiments show that this notion of uncertainty for an embedding vector often
strongly correlates with its downstream accuracy.
- Abstract(参考訳): 今日の最先端のディープラーニングモデルの優れたパフォーマンスは、大規模データセットに対する広範な(自己)教師付きコントラスト事前トレーニングにある程度依存している。
対照的な学習では、ネットワークは正(類似)と負(類似)のデータポイントのペアで示され、各データポイント、すなわち、様々な下流タスクに対してさらに微調整可能な表現に対する埋め込みベクトルを見つけるように訓練される。
これらのモデルを重要な意思決定システムに安全にデプロイするためには、その不確実性や信頼性を測ることが不可欠である。
しかし、対照的なモデルの訓練の性質と出力に絶対ラベルがないこと(抽象埋め込みベクトル)により、従来の不確実性推定手法をそのようなモデルに適用することは簡単ではない。
本研究では,そのような表現の不確かさを1つのデータポイントに対して有意義に定量化できるかどうかを考察する。
言い換えれば、与えられたデータポイントの下流のパフォーマンスが、事前訓練された埋め込みから直接予測可能であるかどうかを探索する。
この目的は、埋め込み空間におけるトレーニングデータの分布を直接推定し、表現の局所的な一貫性を考慮することで達成できることを示す。
実験の結果, 埋め込みベクトルに対する不確実性の概念は下流の精度と強く相関していることがわかった。
関連論文リスト
- Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Quantifying Representation Reliability in Self-Supervised Learning Models [12.485580780944083]
自己教師付き学習モデルは、データから汎用的な表現を抽出する。
表現信頼性の形式的定義を導入する。
本稿では,下流タスクを優先課題と知らずに表現信頼性を推定するアンサンブルに基づく手法を提案する。
論文 参考訳(メタデータ) (2023-05-31T21:57:33Z) - Certifying Data-Bias Robustness in Linear Regression [12.00314910031517]
本稿では, 線形回帰モデルが学習データセットのラベルバイアスに対して, ポイントワイズで損なわれているかどうかを検証する手法を提案する。
この問題を個々のテストポイントに対して正確に解く方法を示し、近似的だがよりスケーラブルな方法を提供する。
また、いくつかのデータセット上の特定のバイアス仮定に対して、高いレベルの非腐食性など、バイアス-腐食性のギャップを掘り下げる。
論文 参考訳(メタデータ) (2022-06-07T20:47:07Z) - Robust Flow-based Conformal Inference (FCI) with Statistical Guarantee [4.821312633849745]
本研究では,予測集合の構築や,複雑なデータや高次元データに対するアウトレイラの推測など,一連の共形推論手法を開発する。
ベンチマークデータセットを用いて,ロバストなフローベース共形推論手法の評価を行った。
論文 参考訳(メタデータ) (2022-05-22T04:17:30Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Evaluating Predictive Uncertainty and Robustness to Distributional Shift
Using Real World Data [0.0]
シフト天気予報データセットを用いて、一般的な回帰作業のためのメトリクスを提案する。
また,これらの指標を用いたベースライン手法の評価を行った。
論文 参考訳(メタデータ) (2021-11-08T17:32:10Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。