論文の概要: Gradient Span Algorithms Make Predictable Progress in High Dimension
- arxiv url: http://arxiv.org/abs/2410.09973v1
- Date: Sun, 13 Oct 2024 19:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:53:37.610289
- Title: Gradient Span Algorithms Make Predictable Progress in High Dimension
- Title(参考訳): グラディエント・スパン・アルゴリズムは高次元で予測可能な進歩をもたらす
- Authors: Felix Benning, Leif Döring,
- Abstract要約: 我々は、全ての「漸進的アルゴリズム」が、無限大となる傾向があるため、スケールされたランダム関数に決定論的に就いていることを証明した。
分布仮定はトレーニングに使用されるが、ランダムグラスやスピンも含む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We prove that all 'gradient span algorithms' have asymptotically deterministic behavior on scaled Gaussian random functions as the dimension tends to infinity. In particular, this result explains the counterintuitive phenomenon that different training runs of many large machine learning models result in approximately equal cost curves despite random initialization on a complicated non-convex landscape. The distributional assumption of (non-stationary) isotropic Gaussian random functions we use is sufficiently general to serve as realistic model for machine learning training but also encompass spin glasses and random quadratic functions.
- Abstract(参考訳): 我々は、すべての「漸進スパンアルゴリズム」が、次元が無限大になる傾向があるため、スケールしたガウスランダム関数に対して漸近的に決定論的挙動を持つことを証明した。
特に、この結果は、複雑な非凸ランドスケープ上でランダムに初期化されているにもかかわらず、多くの大きな機械学習モデルの異なるトレーニングがほぼ同じコスト曲線をもたらすという、直感的な現象を説明する。
非定常な)等方的ガウス確率関数の分布仮定は、機械学習訓練の現実的モデルとして機能するだけでなく、スピングラスやランダム二次関数も含む。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Universal approximation property of Banach space-valued random feature models including random neural networks [3.3379026542599934]
ランダムな特徴学習におけるバナッハ空間値の拡張を提案する。
特徴マップをランダムに初期化することにより、線形読み出しのみをトレーニングする必要がある。
我々は、与えられたバナッハ空間の要素を学ぶための近似率と明示的なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-12-13T11:27:15Z) - A Heavy-Tailed Algebra for Probabilistic Programming [53.32246823168763]
本稿では,確率変数の尾を解析するための体系的アプローチを提案する。
本稿では,確率型プログラミング言語コンパイラの静的解析(サンプル作成前)において,この手法をどのように利用できるかを示す。
実験結果から,重み付き代数を利用する推論アルゴリズムは,多数の密度モデリングおよび変分推論タスクにおいて優れた性能が得られることを確認した。
論文 参考訳(メタデータ) (2023-06-15T16:37:36Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Simplex Random Features [53.97976744884616]
ソフトマックスおよびガウスカーネルの非バイアス近似のための新しいランダム特徴(RF)機構であるSimplex Random Features (SimRFs)を提案する。
我々は,これらのカーネルの非バイアス推定値に対して,SimRFが最小平均二乗誤差(MSE)を提供することを示す。
ポイントワイドカーネル推定,非パラメトリック分類,スケーラブルトランスフォーマーなどの設定において,SimRFによる一貫したゲインを示す。
論文 参考訳(メタデータ) (2023-01-31T18:53:39Z) - Model, sample, and epoch-wise descents: exact solution of gradient flow
in the random feature model [16.067228939231047]
勾配流下での一般化および訓練誤差の全時間的挙動を解析する。
システムサイズが大きければ、両方のエラーの完全な時間進化経路を解析的に計算できることが示される。
我々の手法は、線形鉛筆に基づく最近のランダム行列法とともに、誤差のコーシー複素積分表現に基づいている。
論文 参考訳(メタデータ) (2021-10-22T14:25:54Z) - Shallow Representation is Deep: Learning Uncertainty-aware and
Worst-case Random Feature Dynamics [1.1470070927586016]
本稿では,不確実な系モデルを普遍核ヒルベルト空間における未知あるいは不確実な滑らかな関数とみなす。
パラメータの不確かさのあるランダムな特徴を用いて1段階の動的関数を直接近似することにより、力学系全体を多層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2021-06-24T14:48:12Z) - Function Approximation via Sparse Random Features [23.325877475827337]
本稿では,圧縮センシングの手法を用いて無作為特徴モデルを学習する分散ランダム特徴量法を提案する。
分散ランダム特徴法は,十分に構造化された機能や科学的機械学習タスクへの応用において,浅層ネットワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-04T17:53:54Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Efficiently Sampling Functions from Gaussian Process Posteriors [76.94808614373609]
高速後部サンプリングのための簡易かつ汎用的なアプローチを提案する。
分離されたサンプルパスがガウス過程の後部を通常のコストのごく一部で正確に表現する方法を実証する。
論文 参考訳(メタデータ) (2020-02-21T14:03:16Z) - Randomly Projected Additive Gaussian Processes for Regression [37.367935314532154]
GPレグレッションにはカーネルの加算和を使用し、各カーネルはその入力の異なるランダムなプロジェクションで動作する。
この収束とその速度を証明し、純粋にランダムな射影よりも早く収束する決定論的アプローチを提案する。
論文 参考訳(メタデータ) (2019-12-30T07:26:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。