論文の概要: Doubly-Stochastic Normalization of the Gaussian Kernel is Robust to
Heteroskedastic Noise
- arxiv url: http://arxiv.org/abs/2006.00402v2
- Date: Mon, 25 Jan 2021 20:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:32:34.551696
- Title: Doubly-Stochastic Normalization of the Gaussian Kernel is Robust to
Heteroskedastic Noise
- Title(参考訳): ヘテロスケダス音に対するガウス核の二重確率正規化
- Authors: Boris Landa, Ronald R.Coifman, Yuval Kluger
- Abstract要約: ガウス核の主対角がゼロの二重確率正規化はヘテロスケダティックノイズに対して頑健であることを示す。
本報告では,本態性ヘテロスケダスティック性を有する単一細胞RNA配列のシミュレートおよび実験例を示す。
- 参考スコア(独自算出の注目度): 3.5429774642987915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental step in many data-analysis techniques is the construction of an
affinity matrix describing similarities between data points. When the data
points reside in Euclidean space, a widespread approach is to from an affinity
matrix by the Gaussian kernel with pairwise distances, and to follow with a
certain normalization (e.g. the row-stochastic normalization or its symmetric
variant). We demonstrate that the doubly-stochastic normalization of the
Gaussian kernel with zero main diagonal (i.e., no self loops) is robust to
heteroskedastic noise. That is, the doubly-stochastic normalization is
advantageous in that it automatically accounts for observations with different
noise variances. Specifically, we prove that in a suitable high-dimensional
setting where heteroskedastic noise does not concentrate too much in any
particular direction in space, the resulting (doubly-stochastic) noisy affinity
matrix converges to its clean counterpart with rate $m^{-1/2}$, where $m$ is
the ambient dimension. We demonstrate this result numerically, and show that in
contrast, the popular row-stochastic and symmetric normalizations behave
unfavorably under heteroskedastic noise. Furthermore, we provide examples of
simulated and experimental single-cell RNA sequence data with intrinsic
heteroskedasticity, where the advantage of the doubly-stochastic normalization
for exploratory analysis is evident.
- Abstract(参考訳): 多くのデータ分析技術の基本的なステップは、データポイント間の類似性を記述する親和性行列の構築である。
データポイントがユークリッド空間に存在するとき、一対距離のガウス核による親和性行列から特定の正規化(例えば、行-確率正規化またはその対称変種)に従うように広くアプローチされる。
ガウス核の二重確率正規化は主対角線がゼロ(すなわち自己ループがない)であり、ヘテロスケダティックノイズに対して堅牢であることを示す。
すなわち、二重確率正規化は、ノイズ分散の異なる観測を自動で行うという点で有利である。
具体的には、ヘテロスケダティックノイズが空間内の特定の方向にあまり集中しないような適切な高次元環境では、結果として生じる(二重確率的な)ノイズ親和性行列は、m^{-1/2}$でそのクリーンなものと収束し、$m$は周囲の次元である。
この結果を数値的に示し,それとは対照的に,一般の行ステキスティックおよび対称正規化はヘテロステキスティックな雑音下で不利に振る舞うことを示した。
さらに,本研究では,本態性ヘテロスケダスティック性を有する単一細胞RNA配列のシミュレートと実験を行い,二重確率正規化の利点を探索解析に活かした。
関連論文リスト
- High-Dimensional Kernel Methods under Covariate Shift: Data-Dependent Implicit Regularization [83.06112052443233]
本稿では,共変量シフト下での高次元におけるカーネルリッジの回帰について検討する。
バイアス分散分解により、再重み付け戦略が分散を減少させることができることを理論的に証明する。
偏見について,任意の偏見の正則化を解析し,偏見が正則化の異なる尺度で非常に異なる振る舞いをすることができることを示す。
論文 参考訳(メタデータ) (2024-06-05T12:03:27Z) - Matrix Denoising with Doubly Heteroscedastic Noise: Fundamental Limits and Optimal Spectral Methods [24.06775799553418]
本研究では,列相関と列相関の両方でノイズによって劣化したランク1$の信号の特異ベクトルを推定する行列記述問題について検討する。
本研究は,2つのヘテロセダスティックノイズを重畳した行列の,情報理論的およびアルゴリズム的限界を確立する。
論文 参考訳(メタデータ) (2024-05-22T18:38:10Z) - Approximation properties relative to continuous scale space for hybrid discretizations of Gaussian derivative operators [0.5439020425819]
本稿ではガウス微分に対する2つのハイブリッド離散化法の特性について解析する。
これらの離散化手法を研究する動機は、異なる順序の複数の空間微分が同じスケールレベルで必要である場合、より効率的に計算できることである。
論文 参考訳(メタデータ) (2024-05-08T14:44:34Z) - SNEkhorn: Dimension Reduction with Symmetric Entropic Affinities [14.919246099820548]
エントロピック親和性 (EA) は、一般的な次元性還元 (DR) アルゴリズム t-SNE で用いられる。
EAは本質的に非対称で行ワイドであるが、シンメトリゼーション法(英語版)の後にDRアプローチで使用される。
本研究では,最適な輸送問題としてEAの新たな特徴を明らかにし,効率的に計算できる自然な対称性を実現する。
論文 参考訳(メタデータ) (2023-05-23T08:08:10Z) - Sharp analysis of EM for learning mixtures of pairwise differences [14.01151780845689]
線形回帰とランダムサンプルの対称混合をペア比較設計から検討する。
我々は、列が線形収束することを証明し、反復数の推定誤差に対して$ell_infty$-normの保証を与える。
EMシーケンスの極限は$ell$-normにおける推定の急激な速度を達成し、情報理論の最適定数と一致することを示す。
論文 参考訳(メタデータ) (2023-02-20T16:13:19Z) - Robust Inference of Manifold Density and Geometry by Doubly Stochastic
Scaling [8.271859911016719]
我々は高次元雑音下で頑健な推論のためのツールを開発する。
提案手法は, セルタイプにまたがる技術的ノイズレベルの変動に頑健であることを示す。
論文 参考訳(メタデータ) (2022-09-16T15:39:11Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Spectral clustering under degree heterogeneity: a case for the random
walk Laplacian [83.79286663107845]
本稿では,ランダムウォークラプラシアンを用いたグラフスペクトル埋め込みが,ノード次数に対して完全に補正されたベクトル表現を生成することを示す。
次数補正ブロックモデルの特別な場合、埋め込みはK個の異なる点に集中し、コミュニティを表す。
論文 参考訳(メタデータ) (2021-05-03T16:36:27Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z) - Random extrapolation for primal-dual coordinate descent [61.55967255151027]
本稿では,データ行列の疎度と目的関数の好適な構造に適応する,ランダムに外挿した原始-双対座標降下法を提案する。
一般凸凹の場合, 主対差と目的値に対するシーケンスのほぼ確実に収束と最適サブ線形収束率を示す。
論文 参考訳(メタデータ) (2020-07-13T17:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。