論文の概要: The informativeness of the gradient revisited
- arxiv url: http://arxiv.org/abs/2505.22158v1
- Date: Wed, 28 May 2025 09:23:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.533209
- Title: The informativeness of the gradient revisited
- Title(参考訳): 勾配の知性を再考した
- Authors: Rustem Takhanov,
- Abstract要約: 対象関数クラスのペア独立性に関連するパラメータの観点から、分散の一般性を与える。
理論的解析に加えて,近年の学習者による学習の誤りに対する深層学習に基づく攻撃の性質をよりよく理解するための実験も提案する。
- 参考スコア(独自算出の注目度): 4.178980693837599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the past decade gradient-based deep learning has revolutionized several applications. However, this rapid advancement has highlighted the need for a deeper theoretical understanding of its limitations. Research has shown that, in many practical learning tasks, the information contained in the gradient is so minimal that gradient-based methods require an exceedingly large number of iterations to achieve success. The informativeness of the gradient is typically measured by its variance with respect to the random selection of a target function from a hypothesis class. We use this framework and give a general bound on the variance in terms of a parameter related to the pairwise independence of the target function class and the collision entropy of the input distribution. Our bound scales as $ \tilde{\mathcal{O}}(\varepsilon+e^{-\frac{1}{2}\mathcal{E}_c}) $, where $ \tilde{\mathcal{O}} $ hides factors related to the regularity of the learning model and the loss function, $ \varepsilon $ measures the pairwise independence of the target function class and $\mathcal{E}_c$ is the collision entropy of the input distribution. To demonstrate the practical utility of our bound, we apply it to the class of Learning with Errors (LWE) mappings and high-frequency functions. In addition to the theoretical analysis, we present experiments to understand better the nature of recent deep learning-based attacks on LWE.
- Abstract(参考訳): 過去10年間で勾配に基づくディープラーニングは、いくつかのアプリケーションに革命をもたらした。
しかし、この急速な進歩は、その限界についてより深い理論的理解の必要性を強調している。
多くの実践的な学習タスクにおいて、勾配に含まれる情報は最小限であり、勾配に基づく手法は成功を達成するために非常に多くの反復を必要とすることが示されている。
勾配の情報性は通常、仮説クラスから対象関数のランダムな選択に関してその分散によって測定される。
このフレームワークを用いて、対象関数クラスのペア独立性および入力分布の衝突エントロピーに関連するパラメータの観点から、分散の一般性を与える。
例えば、 $ \tilde{\mathcal{O}}(\varepsilon+e^{-\frac{1}{2}\mathcal{E}_c}) $, where $ \tilde{\mathcal{O}} $ は学習モデルと損失関数の正則性に関連する因子を隠蔽し、 $ \varepsilon $ はターゲット関数クラスのペア独立性を測り、 $\mathcal{E}_c$ は入力分布の衝突エントロピーである。
そこで本研究では,Learning with Errors(LWE)マッピングと高周波関数のクラスに適用する。
理論的解析に加えて,近年のLWEに対する深層学習による攻撃の性質をよりよく理解するための実験を行った。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Gradient Descent Fails to Learn High-frequency Functions and Modular Arithmetic [8.813846754606898]
本稿では,勾配に基づく学習手法を用いて,限界と課題の数学的解析を行う。
我々は、周波数または素基底$p$が大きい場合、両方の場合において勾配のばらつきが無視できるほど小さいことを強調する。
論文 参考訳(メタデータ) (2023-10-19T11:33:33Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Gradient flows and randomised thresholding: sparse inversion and
classification [0.0]
スパースインバージョンと分類問題は、現代のデータサイエンスとイメージングにおいて至るところに存在している。
分類において、例えば、データの忠実度項と非滑らかなギンズバーグ-ランダウエネルギーの和を考える。
標準(サブ)勾配降下法はそのような問題にアプローチする際に非効率であることが示されている。
論文 参考訳(メタデータ) (2022-03-22T09:21:14Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Combining resampling and reweighting for faithful stochastic
optimization [1.52292571922932]
損失関数が複数の項の和であるとき、一般的な方法は勾配降下である。
損失関数における複数の項のリプシッツ定数の差は、異なる最小値における異なる分散への勾配降下を引き起こすことを示す。
論文 参考訳(メタデータ) (2021-05-31T04:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。