論文の概要: The Power of Random Features and the Limits of Distribution-Free Gradient Descent
- arxiv url: http://arxiv.org/abs/2505.10423v1
- Date: Thu, 15 May 2025 15:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.391562
- Title: The Power of Random Features and the Limits of Distribution-Free Gradient Descent
- Title(参考訳): ランダム特性のパワーと分布自由勾配の限界
- Authors: Ari Karchmer, Eran Malach,
- Abstract要約: パラメトリックモデル(例えばニューラルネットワーク)の勾配に基づく最適化とランダムな特徴の線形結合の最適化の関係について検討する。
本研究の主目的は,データ分布を仮定することなく,最小バッチ勾配勾配(bSGD)を用いてパラメトリックモデルを学習できる場合,高い確率で対象関数を近似できることである。
- 参考スコア(独自算出の注目度): 14.742677437485273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the relationship between gradient-based optimization of parametric models (e.g., neural networks) and optimization of linear combinations of random features. Our main result shows that if a parametric model can be learned using mini-batch stochastic gradient descent (bSGD) without making assumptions about the data distribution, then with high probability, the target function can also be approximated using a polynomial-sized combination of random features. The size of this combination depends on the number of gradient steps and numerical precision used in the bSGD process. This finding reveals fundamental limitations of distribution-free learning in neural networks trained by gradient descent, highlighting why making assumptions about data distributions is often crucial in practice. Along the way, we also introduce a new theoretical framework called average probabilistic dimension complexity (adc), which extends the probabilistic dimension complexity developed by Kamath et al. (2020). We prove that adc has a polynomial relationship with statistical query dimension, and use this relationship to demonstrate an infinite separation between adc and standard dimension complexity.
- Abstract(参考訳): パラメトリックモデル(例えばニューラルネットワーク)の勾配に基づく最適化とランダムな特徴の線形結合の最適化の関係について検討する。
本研究の主目的は,データ分布を仮定することなく,最小バッチ確率勾配勾配(bSGD)を用いてパラメトリックモデルを学習できることである。
この組み合わせの大きさは、bSGDプロセスで使用される勾配ステップの数と数値精度に依存する。
この発見は、勾配降下によって訓練されたニューラルネットワークにおける分布自由学習の基本的な限界を明らかにし、なぜデータ分布に関する仮定を行うかが実際は重要であることを強調している。
また,Kamath et al (2020) によって開発された確率的次元複雑性を拡張した平均確率的次元複雑性 (adc) という新たな理論フレームワークを導入する。
本稿では,Adcが統計的クエリ次元と多項式関係を持つことを証明し,この関係を用いて,Adcと標準次元の複雑性を無限に分離することを示す。
関連論文リスト
- A Unified MDL-based Binning and Tensor Factorization Framework for PDF Estimation [16.147973439788856]
多変量確率密度関数推定のための新しい非パラメトリックアプローチを提案する(PDF)。
提案手法は, 共役確率テンソルの正準多進分解(CPD)を利用するテンソル分解法に基づく。
我々は,本手法が合成データおよび実生豆分類データセットに与える影響を実証した。
論文 参考訳(メタデータ) (2025-04-25T20:27:04Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Distribution learning via neural differential equations: a nonparametric
statistical perspective [1.4436965372953483]
この研究は、確率変換によって訓練されたODEモデルによる分布学習のための最初の一般統計収束解析を確立する。
後者はクラス $mathcal F$ の$C1$-metric entropy で定量化できることを示す。
次に、この一般フレームワークを$Ck$-smoothターゲット密度の設定に適用し、関連する2つの速度場クラスに対する最小最適収束率を$mathcal F$:$Ck$関数とニューラルネットワークに設定する。
論文 参考訳(メタデータ) (2023-09-03T00:21:37Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Information Theoretic Structured Generative Modeling [13.117829542251188]
構造生成モデル (Structured Generative Model, SGM) と呼ばれる新しい生成モデルフレームワークが提案され, 簡単な最適化が可能となった。
この実装では、無限のガウス混合モデルを学習するために適合した単一白色ノイズ源への正則入力によって駆動される1つのニューラルネットワークを採用している。
予備的な結果は、SGMがデータ効率と分散、従来のガウス混合モデルと変分混合モデル、および敵ネットワークのトレーニングにおいてMINE推定を著しく改善することを示している。
論文 参考訳(メタデータ) (2021-10-12T07:44:18Z) - Online Statistical Inference for Stochastic Optimization via
Kiefer-Wolfowitz Methods [8.890430804063705]
The distribution for the Polyak-Ruppert-averaging type Kiefer-Wolfowitz (AKW) estimators。
分布結果は、統計効率と関数クエリの複雑さのトレードオフを反映している。
論文 参考訳(メタデータ) (2021-02-05T19:22:41Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Multipole Graph Neural Operator for Parametric Partial Differential
Equations [57.90284928158383]
物理系をシミュレーションするためのディープラーニングベースの手法を使用する際の大きな課題の1つは、物理ベースのデータの定式化である。
線形複雑度のみを用いて、あらゆる範囲の相互作用をキャプチャする、新しいマルチレベルグラフニューラルネットワークフレームワークを提案する。
実験により, 離散化不変解演算子をPDEに学習し, 線形時間で評価できることを確認した。
論文 参考訳(メタデータ) (2020-06-16T21:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。