論文の概要: The Curse Revisited: a Newly Quantified Concept of Meaningful Distances
for Learning from High-Dimensional Noisy Data
- arxiv url: http://arxiv.org/abs/2109.10569v1
- Date: Wed, 22 Sep 2021 08:04:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 13:54:39.887682
- Title: The Curse Revisited: a Newly Quantified Concept of Meaningful Distances
for Learning from High-Dimensional Noisy Data
- Title(参考訳): 高次元雑音データから学習する「意味のある距離」の概念について
- Authors: Robin Vandaele, Bo Kang, Tijl De Bie, Yvan Saeys
- Abstract要約: 特定の条件下では、この差別が貧弱であるのを観察しても、騒音に影響を受ける実証的な近隣関係は依然として真実である可能性が高い。
この結果の徹底的な実証的検証や、隣人がランダムになったり、不規則になったりした相変化を示す実験は、高次元データの密度雑音による低次元表現を見つけるのに、一般的な次元減少法が不十分あるいは良好に機能する相変化と同一である。
- 参考スコア(独自算出の注目度): 18.113579221265635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distances between data points are widely used in point cloud representation
learning. Yet, it is no secret that under the effect of noise, these
distances-and thus the models based upon them-may lose their usefulness in high
dimensions. Indeed, the small marginal effects of the noise may then accumulate
quickly, shifting empirical closest and furthest neighbors away from the ground
truth. In this paper, we characterize such effects in high-dimensional data
using an asymptotic probabilistic expression. Furthermore, while it has been
previously argued that neighborhood queries become meaningless and unstable
when there is a poor relative discrimination between the furthest and closest
point, we conclude that this is not necessarily the case when explicitly
separating the ground truth data from the noise. More specifically, we derive
that under particular conditions, empirical neighborhood relations affected by
noise are still likely to be true even when we observe this discrimination to
be poor. We include thorough empirical verification of our results, as well as
experiments that interestingly show our derived phase shift where neighbors
become random or not is identical to the phase shift where common
dimensionality reduction methods perform poorly or well for finding
low-dimensional representations of high-dimensional data with dense noise.
- Abstract(参考訳): データポイント間の距離は、ポイントクラウド表現学習で広く使われている。
しかし、ノイズの影響下では、これらの距離とそれらに基づくモデルが高次元で有用性を失うことは周知の事実である。
実際、ノイズの小さな限界効果はすぐに蓄積され、経験的な最も近い隣人たちを地上の真理から遠ざける。
本稿では,このような効果を漸近的確率的表現を用いて高次元データで特徴付ける。
さらに、最も近い点と最も近い点の相対的な識別が不十分な場合、近隣の問い合わせは意味がなく不安定になるという主張もあるが、基底の真理データをノイズから明示的に分離する場合、必ずしもそうではないと結論付ける。
より具体的には、特定の条件下では、ノイズに影響された実証的な近隣関係は、この差別が貧弱であると見なしても、依然として真実である可能性が高い。
この結果の徹底的な実証的検証や、隣人がランダムになったり、不規則になったりした相変化を示す実験は、高次元データの密度雑音による低次元表現を見つけるのに、一般的な次元減少法が不十分あるいは良好に機能する相変化と同一である。
関連論文リスト
- Accuracy on the wrong line: On the pitfalls of noisy data for out-of-distribution generalisation [70.36344590967519]
ノイズの多いデータやニュアンスの特徴は,その正確さを損なうのに十分であることを示す。
ノイズの多いデータとノイズのある特徴を持つ合成データセットと実データセットの両方で、この現象を実証する。
論文 参考訳(メタデータ) (2024-06-27T09:57:31Z) - Investigating the Impact of Model Instability on Explanations and Uncertainty [43.254616360807496]
テキスト入力における不確かさを推測時に雑音を導入することでシミュレートする。
高い不確実性は必ずしも説明可能性の低さを暗示しない。
このことは、ノイズ増強モデルが不確実性のあるトークンを特定するのに優れていることを示唆している。
論文 参考訳(メタデータ) (2024-02-20T13:41:21Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Deconfounded Score Method: Scoring DAGs with Dense Unobserved
Confounding [101.35070661471124]
本研究では,観測データ分布に特徴的フットプリントが残っており,突発的・因果的影響を解消できることを示す。
汎用ソルバで実装し,高次元問題へのスケールアップが可能なスコアベース因果検出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T11:07:59Z) - Learning with Group Noise [106.56780716961732]
グループノイズを用いた学習のための新しいマックスマッチング手法を提案する。
いくつかの学習パラダイムの領域における実世界のデータセットのレンジのパフォーマンスは、Max-Matchingの有効性を示している。
論文 参考訳(メタデータ) (2021-03-17T06:57:10Z) - Noise in Classification [32.458986097202626]
本章では,雑音の存在下での線形しきい値学習の計算的・統計的側面について考察する。
本稿では,データ生成過程における自然な仮定を生かして,これらのネガティブな結果を扱うためのアプローチについて議論する。
論文 参考訳(メタデータ) (2020-10-10T19:52:26Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。