論文の概要: Local Averaging Accurately Distills Manifold Structure From Noisy Data
- arxiv url: http://arxiv.org/abs/2506.18761v1
- Date: Mon, 23 Jun 2025 15:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.055882
- Title: Local Averaging Accurately Distills Manifold Structure From Noisy Data
- Title(参考訳): 騒音データから高精度に希釈した局所平均化
- Authors: Yihan Shen, Shiyu Wang, Arnaud Lamy, Mariam Avagyan, John Wright,
- Abstract要約: 局所平均化(Local averaging)は、多様体のフィッティングとデノイングのための最先端の証明可能な手法の基盤である。
本稿では,$d$次元多様体から得られた雑音サンプルに対して,2ラウンドの局所平均化法について理論的に解析する。
提案手法は,低雑音環境向けに設計された幅広い証明可能な手法の事前処理ステップとして機能する。
- 参考スコア(独自算出の注目度): 4.63748375343038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-dimensional data are ubiquitous, with examples ranging from natural images to scientific datasets, and often reside near low-dimensional manifolds. Leveraging this geometric structure is vital for downstream tasks, including signal denoising, reconstruction, and generation. However, in practice, the manifold is typically unknown and only noisy samples are available. A fundamental approach to uncovering the manifold structure is local averaging, which is a cornerstone of state-of-the-art provable methods for manifold fitting and denoising. However, to the best of our knowledge, there are no works that rigorously analyze the accuracy of local averaging in a manifold setting in high-noise regimes. In this work, we provide theoretical analyses of a two-round mini-batch local averaging method applied to noisy samples drawn from a $d$-dimensional manifold $\mathcal M \subset \mathbb{R}^D$, under a relatively high-noise regime where the noise size is comparable to the reach $\tau$. We show that with high probability, the averaged point $\hat{\mathbf q}$ achieves the bound $d(\hat{\mathbf q}, \mathcal M) \leq \sigma \sqrt{d\left(1+\frac{\kappa\mathrm{diam}(\mathcal {M})}{\log(D)}\right)}$, where $\sigma, \mathrm{diam(\mathcal M)},\kappa$ denote the standard deviation of the Gaussian noise, manifold's diameter and a bound on its extrinsic curvature, respectively. This is the first analysis of local averaging accuracy over the manifold in the relatively high noise regime where $\sigma \sqrt{D} \approx \tau$. The proposed method can serve as a preprocessing step for a wide range of provable methods designed for lower-noise regimes. Additionally, our framework can provide a theoretical foundation for a broad spectrum of denoising and dimensionality reduction methods that rely on local averaging techniques.
- Abstract(参考訳): 高次元データは、自然画像から科学的なデータセットまで、ユビキタスであり、しばしば低次元多様体の近くに存在する。
この幾何学的構造を活用することは、信号の復調、再構成、生成を含む下流のタスクにとって不可欠である。
しかし実際には、多様体は典型的には未知であり、ノイズの多いサンプルのみが利用可能である。
多様体構造を明らかにするための基本的なアプローチは局所平均化(英語版)であり、これは多様体のフィッティングとデノイングのための最先端の証明可能な方法の基礎である。
しかし、我々の知る限りでは、高雑音状態の多様体における局所平均化の精度を厳密に解析する研究は存在しない。
本研究では,2ラウンドの局所平均化法を$d$次元多様体 $\mathcal M \subset \mathbb{R}^D$ の雑音サンプルに適用する理論解析を行う。
高確率で、平均点 $\hat{\mathbf q}$ が有界$d(\hat{\mathbf q}, \mathcal M) \leq \sigma \sqrt{d\left(1+\frac{\kappa\mathrm{diam}(\mathcal {M})}{\log(D)}\right)}$,$\sigma, \mathrm{diam(\mathcal M)},\kappa$ はガウスノイズの標準偏差、多様体の直径、外生曲率の有界値を表す。
これは、$\sigma \sqrt{D} \approx \tau$ という比較的高雑音状態における多様体上の局所平均精度の最初の解析である。
提案手法は,低雑音環境向けに設計された幅広い証明可能な手法の事前処理ステップとして機能する。
さらに,本フレームワークは,局所平均化技術に頼りながら,広帯域の騒音低減手法と次元低減手法の理論的基盤を提供することができる。
関連論文リスト
- Nonlinear Stochastic Gradient Descent and Heavy-tailed Noise: A Unified Framework and High-probability Guarantees [56.80920351680438]
本研究では,重音の存在下でのオンライン学習における高確率収束について検討する。
ノイズモーメントを仮定することなく、幅広い種類の非線形性を保証する。
論文 参考訳(メタデータ) (2024-10-17T18:25:28Z) - Adaptive $k$-nearest neighbor classifier based on the local estimation of the shape operator [49.87315310656657]
我々は, 局所曲率をサンプルで探索し, 周辺面積を適応的に定義する適応型$k$-nearest(kK$-NN)アルゴリズムを提案する。
多くの実世界のデータセットから、新しい$kK$-NNアルゴリズムは、確立された$k$-NN法と比較してバランスの取れた精度が優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-08T13:08:45Z) - SGD with Clipping is Secretly Estimating the Median Gradient [19.69067856415625]
劣化ノードを用いた分散学習,トレーニングデータに大きな外れ値が存在すること,プライバシ制約下での学習,あるいはアルゴリズム自体のダイナミクスによるヘビーテールノイズなどについて検討する。
まず,サンプル間の中央勾配を計算し,重み付き状態依存雑音下でも収束できることを示す。
本稿では,反復の中央値勾配を推定するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-20T08:54:07Z) - Optimal twirling depths for shadow tomography in the presence of noise [0.1227734309612871]
我々は,サンプルの複雑さをノイズの存在下で回路の深さの関数とみなす。
このノイズは最適なツイリングアンサンブルを決定するために重要な意味を持つ。
これらの閾値は、シャドートモグラフィーを実装するための最適な戦略の探索を強く制約する。
論文 参考訳(メタデータ) (2023-11-16T19:00:01Z) - Robust Inference of Manifold Density and Geometry by Doubly Stochastic
Scaling [8.271859911016719]
我々は高次元雑音下で頑健な推論のためのツールを開発する。
提案手法は, セルタイプにまたがる技術的ノイズレベルの変動に頑健であることを示す。
論文 参考訳(メタデータ) (2022-09-16T15:39:11Z) - Manifold Free Riemannian Optimization [4.484251538832438]
滑らかな多様体 $mathcalM$ を用いて最適化問題を解くための原理的枠組みを提案する。
代数学M におけるコスト関数 $(x_i, y_i) の雑音のないサンプル集合 mathbbR$ と多様体 $mathcalM$ の固有次元を用いる。
論文 参考訳(メタデータ) (2022-09-07T16:19:06Z) - Towards Sample-Optimal Compressive Phase Retrieval with Sparse and
Generative Priors [59.33977545294148]
O(k log L)$サンプルは振幅に基づく経験損失関数を最小化する任意のベクトルに信号が近いことを保証するのに十分であることを示す。
この結果はスパース位相検索に適応し、基底信号が$s$-sparseおよび$n$-dimensionalである場合、$O(s log n)$サンプルは同様の保証に十分であることを示す。
論文 参考訳(メタデータ) (2021-06-29T12:49:54Z) - Lattice partition recovery with dyadic CART [79.96359947166592]
我々は、$d$次元格子上の加法ガウス雑音によって破損したピースワイド定値信号について検討する。
この形式のデータは、多くのアプリケーションで自然に発生し、統計処理や信号処理の文献において、信号の検出やテスト、ノイズの除去、推定といったタスクが広く研究されている。
本稿では,未知の信号の一貫性領域によって誘導される格子の分割を推定する,分割回復の問題について考察する。
我々は、DCARTベースの手順が、下位分割を$sigma2 k*の順序で一貫して推定することを証明した。
論文 参考訳(メタデータ) (2021-05-27T23:41:01Z) - Learning Halfspaces with Tsybakov Noise [50.659479930171585]
テュバコフ雑音の存在下でのハーフスペースの学習可能性について検討する。
真半空間に関して誤分類誤差$epsilon$を達成するアルゴリズムを与える。
論文 参考訳(メタデータ) (2020-06-11T14:25:02Z) - Manifold Fitting under Unbounded Noise [4.54773250519101]
出力多様体は、基底多様体上の射影点の接空間を直接推定することによって構成される。
我々の新しい手法は、推定された多様体と基礎多様体の間の距離の上限という観点から、高い確率で理論収束を与える。
論文 参考訳(メタデータ) (2019-09-23T08:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。