論文の概要: The Curse Revisited: a Newly Quantified Concept of Meaningful Distances
for Learning from High-Dimensional Noisy Data
- arxiv url: http://arxiv.org/abs/2109.10569v1
- Date: Wed, 22 Sep 2021 08:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:54:39.887682
- Title: The Curse Revisited: a Newly Quantified Concept of Meaningful Distances
for Learning from High-Dimensional Noisy Data
- Title(参考訳): 高次元雑音データから学習する「意味のある距離」の概念について
- Authors: Robin Vandaele, Bo Kang, Tijl De Bie, Yvan Saeys
- Abstract要約: 特定の条件下では、この差別が貧弱であるのを観察しても、騒音に影響を受ける実証的な近隣関係は依然として真実である可能性が高い。
この結果の徹底的な実証的検証や、隣人がランダムになったり、不規則になったりした相変化を示す実験は、高次元データの密度雑音による低次元表現を見つけるのに、一般的な次元減少法が不十分あるいは良好に機能する相変化と同一である。
- 参考スコア(独自算出の注目度): 18.113579221265635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distances between data points are widely used in point cloud representation
learning. Yet, it is no secret that under the effect of noise, these
distances-and thus the models based upon them-may lose their usefulness in high
dimensions. Indeed, the small marginal effects of the noise may then accumulate
quickly, shifting empirical closest and furthest neighbors away from the ground
truth. In this paper, we characterize such effects in high-dimensional data
using an asymptotic probabilistic expression. Furthermore, while it has been
previously argued that neighborhood queries become meaningless and unstable
when there is a poor relative discrimination between the furthest and closest
point, we conclude that this is not necessarily the case when explicitly
separating the ground truth data from the noise. More specifically, we derive
that under particular conditions, empirical neighborhood relations affected by
noise are still likely to be true even when we observe this discrimination to
be poor. We include thorough empirical verification of our results, as well as
experiments that interestingly show our derived phase shift where neighbors
become random or not is identical to the phase shift where common
dimensionality reduction methods perform poorly or well for finding
low-dimensional representations of high-dimensional data with dense noise.
- Abstract(参考訳): データポイント間の距離は、ポイントクラウド表現学習で広く使われている。
しかし、ノイズの影響下では、これらの距離とそれらに基づくモデルが高次元で有用性を失うことは周知の事実である。
実際、ノイズの小さな限界効果はすぐに蓄積され、経験的な最も近い隣人たちを地上の真理から遠ざける。
本稿では,このような効果を漸近的確率的表現を用いて高次元データで特徴付ける。
さらに、最も近い点と最も近い点の相対的な識別が不十分な場合、近隣の問い合わせは意味がなく不安定になるという主張もあるが、基底の真理データをノイズから明示的に分離する場合、必ずしもそうではないと結論付ける。
より具体的には、特定の条件下では、ノイズに影響された実証的な近隣関係は、この差別が貧弱であると見なしても、依然として真実である可能性が高い。
この結果の徹底的な実証的検証や、隣人がランダムになったり、不規則になったりした相変化を示す実験は、高次元データの密度雑音による低次元表現を見つけるのに、一般的な次元減少法が不十分あるいは良好に機能する相変化と同一である。
関連論文リスト
- Investigating the Impact of Model Instability on Explanations and
Uncertainty [48.61385403377465]
テキスト入力における不確かさを推測時に雑音を導入することでシミュレートする。
高い不確実性は必ずしも説明可能性の低さを暗示しない。
このことは、ノイズ増強モデルが不確実性のあるトークンを特定するのに優れていることを示唆している。
論文 参考訳(メタデータ) (2024-02-20T13:41:21Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - On the Role of Entropy-based Loss for Learning Causal Structures with
Continuous Optimization [27.613220411996025]
因果構造学習問題を最小二乗損失を用いた連続最適化問題として定式化する。
ガウス雑音の仮定に違反すると因果方向の同定が妨げられることを示す。
より一般的なエントロピーに基づく損失は、任意の雑音分布下での確率スコアと理論的に一致している。
論文 参考訳(メタデータ) (2021-06-05T08:29:51Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z) - Learning with Group Noise [106.56780716961732]
グループノイズを用いた学習のための新しいマックスマッチング手法を提案する。
いくつかの学習パラダイムの領域における実世界のデータセットのレンジのパフォーマンスは、Max-Matchingの有効性を示している。
論文 参考訳(メタデータ) (2021-03-17T06:57:10Z) - Noise in Classification [32.458986097202626]
本章では,雑音の存在下での線形しきい値学習の計算的・統計的側面について考察する。
本稿では,データ生成過程における自然な仮定を生かして,これらのネガティブな結果を扱うためのアプローチについて議論する。
論文 参考訳(メタデータ) (2020-10-10T19:52:26Z) - Shape Matters: Understanding the Implicit Bias of the Noise Covariance [76.54300276636982]
勾配降下のノイズはパラメータ化モデルに対するトレーニングにおいて重要な暗黙の正則化効果をもたらす。
ミニバッチやラベルの摂動によって引き起こされるパラメータ依存ノイズはガウスノイズよりもはるかに効果的であることを示す。
分析の結果,パラメータ依存ノイズは局所最小値に偏りを生じさせるが,球状ガウス雑音は生じないことがわかった。
論文 参考訳(メタデータ) (2020-06-15T18:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。