論文の概要: Euclidean Distance Deflation Under High-Dimensional Heteroskedastic Noise
- arxiv url: http://arxiv.org/abs/2507.18520v1
- Date: Thu, 24 Jul 2025 15:45:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:43.933723
- Title: Euclidean Distance Deflation Under High-Dimensional Heteroskedastic Noise
- Title(参考訳): 高次元ヘテロスケダス音下でのユークリッド距離デフレ
- Authors: Keyi Li, Yuval Kluger, Boris Landa,
- Abstract要約: 我々は,雑音の大きさを推定し,距離を補正する原理的な超自由な手法を開発した。
特に、単一セルRNAシークエンシングデータに適用すると、確立されたモデルと整合したノイズ推定が得られる。
- 参考スコア(独自算出の注目度): 9.887133861477233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pairwise Euclidean distance calculation is a fundamental step in many machine learning and data analysis algorithms. In real-world applications, however, these distances are frequently distorted by heteroskedastic noise$\unicode{x2014}$a prevalent form of inhomogeneous corruption characterized by variable noise magnitudes across data observations. Such noise inflates the computed distances in a nontrivial way, leading to misrepresentations of the underlying data geometry. In this work, we address the tasks of estimating the noise magnitudes per observation and correcting the pairwise Euclidean distances under heteroskedastic noise. Perhaps surprisingly, we show that in general high-dimensional settings and without assuming prior knowledge on the clean data structure or noise distribution, both tasks can be performed reliably, even when the noise levels vary considerably. Specifically, we develop a principled, hyperparameter-free approach that jointly estimates the noise magnitudes and corrects the distances. We provide theoretical guarantees for our approach, establishing probabilistic bounds on the estimation errors of both noise magnitudes and distances. These bounds, measured in the normalized $\ell_1$ norm, converge to zero at polynomial rates as both feature dimension and dataset size increase. Experiments on synthetic datasets demonstrate that our method accurately estimates distances in challenging regimes, significantly improving the robustness of subsequent distance-based computations. Notably, when applied to single-cell RNA sequencing data, our method yields noise magnitude estimates consistent with an established prototypical model, enabling accurate nearest neighbor identification that is fundamental to many downstream analyses.
- Abstract(参考訳): Pairwise Euclidean distance calculationは、多くの機械学習およびデータ分析アルゴリズムにおける基本的なステップである。
しかし、現実の応用では、これらの距離はしばしばヘテロスケダスティックノイズ$\unicode{x2014}$a で歪む。
このようなノイズは計算された距離を非自明な方法で膨らませ、基礎となるデータ幾何を誤って表現する。
本研究では,観測毎の雑音の大きさを推定し,両方向のユークリッド距離をヘテロスケダティックノイズの下で補正するタスクに対処する。
意外なことに、一般的な高次元設定では、クリーンなデータ構造やノイズ分布に関する事前知識を仮定することなく、ノイズレベルがかなり異なる場合でも、両方のタスクを確実に実行することができる。
具体的には、雑音の大きさを共同で推定し、距離を補正する、原理化されたハイパーパラメータフリーアプローチを開発する。
我々は,提案手法の理論的保証を行い,騒音の大きさと距離の両方の誤差を推定する確率的境界を確立する。
正規化された$\ell_1$ノルムで測定されたこれらの境界は、特徴次元とデータセットサイズの両方が増加するにつれて多項式速度でゼロに収束する。
合成データセットを用いた実験により,本手法は難解な状態における距離を正確に推定し,その後の距離ベース計算の堅牢性を大幅に向上することを示した。
特に, 単一セルRNAシークエンシングデータに適用した場合, 本手法は, 確立されたプロトタイプモデルと整合性のある雑音の大きさの推定値を出力し, 多くの下流解析に基本となる正確な近接同定を可能にする。
関連論文リスト
- Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。
拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。
我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文 参考訳(メタデータ) (2025-01-22T18:52:06Z) - Quasi-Bayesian sequential deconvolution [7.10052009802944]
ストリーミングやオンラインドメインで$f$を見積もるための、原則化されたシーケンシャルなアプローチを開発します。
局所的および一様ガウス中心極限定理は$f_n$に対して成立し、信頼できる区間とバンドを$f$とする。
本手法の実証的検証は, 合成データと実データを用いて行う。
論文 参考訳(メタデータ) (2024-08-26T16:40:04Z) - A Bayesian Approach Toward Robust Multidimensional Ellipsoid-Specific Fitting [0.0]
本研究は, ノイズおよび外周波の汚染における散乱データに多次元楕円体を適合させる, 新規で効果的な方法を提案する。
楕円体領域内でのプリミティブパラメータの探索を制約するために、均一な事前分布を組み込む。
本研究では, 顕微鏡細胞計数, 3次元再構成, 幾何学的形状近似, 磁力計の校正タスクなど, 幅広い応用に応用する。
論文 参考訳(メタデータ) (2024-07-27T14:31:51Z) - Effective Causal Discovery under Identifiable Heteroscedastic Noise Model [45.98718860540588]
因果DAG学習は、最近精度と効率の両面で有望な性能を達成した。
本稿では,変数間のノイズ分散の変動を考慮したDAG学習のための新しい定式化を提案する。
次に、最適化の難しさに対処する効果的な2相反復DAG学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-20T08:51:58Z) - Optimizing the Noise in Self-Supervised Learning: from Importance
Sampling to Noise-Contrastive Estimation [80.07065346699005]
GAN(Generative Adversarial Networks)のように、最適な雑音分布はデータ分布に等しくなると広く想定されている。
我々は、この自己教師型タスクをエネルギーベースモデルの推定問題として基礎づけるノイズ・コントラスト推定に目を向ける。
本研究は, 最適雑音のサンプリングは困難であり, 効率性の向上は, データに匹敵する雑音分布を選択することに比べ, 緩やかに行うことができると結論付けた。
論文 参考訳(メタデータ) (2023-01-23T19:57:58Z) - Robust Inference of Manifold Density and Geometry by Doubly Stochastic
Scaling [8.271859911016719]
我々は高次元雑音下で頑健な推論のためのツールを開発する。
提案手法は, セルタイプにまたがる技術的ノイズレベルの変動に頑健であることを示す。
論文 参考訳(メタデータ) (2022-09-16T15:39:11Z) - The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。
特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文 参考訳(メタデータ) (2022-03-02T13:59:20Z) - Partial Identification with Noisy Covariates: A Robust Optimization
Approach [94.10051154390237]
観測データセットからの因果推論は、しばしば共変量の測定と調整に依存する。
このロバストな最適化手法により、広範囲な因果調整法を拡張し、部分的同定を行うことができることを示す。
合成および実データセット全体で、このアプローチは既存の手法よりも高いカバレッジ確率でATEバウンダリを提供する。
論文 参考訳(メタデータ) (2022-02-22T04:24:26Z) - Fully Adaptive Bayesian Algorithm for Data Analysis, FABADA [0.0]
本稿では,ベイズ推定の観点から,新しい非パラメトリック雑音低減手法について述べる。
データのスムーズなバージョン、スムーズなモデルを繰り返し評価し、基礎となる信号の推定値を得る。
繰り返しは、最後の滑らかなモデルの証拠と$chi2$統計に基づいて停止し、信号の期待値を計算する。
論文 参考訳(メタデータ) (2022-01-13T18:54:31Z) - Manifold learning with approximate nearest neighbors [1.8477401359673706]
多様体学習アルゴリズムでは近距離近傍の近似アルゴリズムを多用し,その埋め込み精度への影響を評価した。
ベンチマークmnistデータセットに基づく徹底的な実証調査により,近似近辺の計算時間が大幅に改善されることが示されている。
本アプリケーションは,提案手法を用いて異常を可視化し,同定し,高次元データ中の基盤構造を明らかにする方法を示す。
論文 参考訳(メタデータ) (2021-02-22T12:04:23Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Manifold Fitting under Unbounded Noise [4.54773250519101]
出力多様体は、基底多様体上の射影点の接空間を直接推定することによって構成される。
我々の新しい手法は、推定された多様体と基礎多様体の間の距離の上限という観点から、高い確率で理論収束を与える。
論文 参考訳(メタデータ) (2019-09-23T08:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。