論文の概要: The Optimal Noise in Noise-Contrastive Learning Is Not What You Think
- arxiv url: http://arxiv.org/abs/2203.01110v1
- Date: Wed, 2 Mar 2022 13:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 14:24:02.751075
- Title: The Optimal Noise in Noise-Contrastive Learning Is Not What You Think
- Title(参考訳): ノイズコントラスト学習における最適なノイズとは何か?
- Authors: Omar Chehab, Alexandre Gramfort, Aapo Hyvarinen
- Abstract要約: この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
- 参考スコア(独自算出の注目度): 80.07065346699005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning a parametric model of a data distribution is a well-known
statistical problem that has seen renewed interest as it is brought to scale in
deep learning. Framing the problem as a self-supervised task, where data
samples are discriminated from noise samples, is at the core of
state-of-the-art methods, beginning with Noise-Contrastive Estimation (NCE).
Yet, such contrastive learning requires a good noise distribution, which is
hard to specify; domain-specific heuristics are therefore widely used. While a
comprehensive theory is missing, it is widely assumed that the optimal noise
should in practice be made equal to the data, both in distribution and
proportion. This setting underlies Generative Adversarial Networks (GANs) in
particular. Here, we empirically and theoretically challenge this assumption on
the optimal noise. We show that deviating from this assumption can actually
lead to better statistical estimators, in terms of asymptotic variance. In
particular, the optimal noise distribution is different from the data's and
even from a different family.
- Abstract(参考訳): データ分布のパラメトリックモデルを学ぶことはよく知られた統計問題であり、ディープラーニングのスケールに新たな関心が寄せられている。
ノイズサンプルからデータサンプルを識別する自己教師型タスクとして問題を分類することは、ノイズ・コントラスト推定(NCE)から始まる最先端の手法の中核にある。
しかし、このような対照的な学習には良いノイズ分布が必要であり、その特定は困難であり、ドメイン固有のヒューリスティックが広く使われている。
包括的理論が欠けているが、実際には最適なノイズは分布と比率の両方においてデータと等しくすべきであると広く考えられている。
この設定は、特にGAN(Generative Adversarial Networks)に基づいている。
ここでは、最適雑音に関するこの仮定を経験的、理論的に挑戦する。
この仮定から逸脱すると、漸近的分散の観点からも、より優れた統計的推定値が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
関連論文リスト
- Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Robust Estimation of Causal Heteroscedastic Noise Models [7.568978862189266]
学生の$t$-distributionは、より小さなサンプルサイズと極端な値で、全体の分布形態を著しく変えることなく、サンプル変数をサンプリングすることの堅牢さで知られている。
我々の経験的評価は、我々の推定器はより堅牢で、合成ベンチマークと実ベンチマークの総合的な性能が向上していることを示している。
論文 参考訳(メタデータ) (2023-12-15T02:26:35Z) - Understanding Noise-Augmented Training for Randomized Smoothing [14.061680807550722]
ランダムスムーシング(Randomized smoothing)は、敵攻撃に対する証明可能な堅牢性を保証する技術である。
より強い分布仮定を作らずに、雑音増強の訓練を受けた予測者から利益を期待できないことを示す。
本分析は, ランダム化平滑化の実践的展開に直接的な意味を持つ。
論文 参考訳(メタデータ) (2023-05-08T14:46:34Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - Pitfalls of Gaussians as a noise distribution in NCE [22.23473249312549]
ノイズコントラスト推定(NCE)は,比例定数までパラメータ化された確率密度関数を学習するための一般的な手法である。
我々は、$q$の選択がNCEの計算効率と統計効率に大きな影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2022-10-01T04:42:56Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [76.16113794808001]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z) - Analyzing and Improving the Optimization Landscape of Noise-Contrastive
Estimation [50.85788484752612]
ノイズコントラスト推定(NCE)は、非正規化確率モデルを学習するための統計的に一貫した手法である。
ノイズ分布の選択がNCEの性能に不可欠であることが実験的に観察されている。
本研究では,不適切な雑音分布を用いた場合,NCEの性能低下の原因を正式に指摘する。
論文 参考訳(メタデータ) (2021-10-21T16:57:45Z) - Adaptive Multi-View ICA: Estimation of noise levels for optimal
inference [65.94843987207445]
Adaptive MultiView ICA (AVICA) はノイズの多いICAモデルであり、各ビューは共有された独立したソースと付加的なノイズの線形混合である。
AVICAは、その明示的なMMSE推定器により、他のICA法よりも優れたソース推定値が得られる。
実脳磁図(MEG)データでは,分解がサンプリングノイズに対する感度が低く,ノイズ分散推定が生物学的に妥当であることを示す。
論文 参考訳(メタデータ) (2021-02-22T13:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。