論文の概要: Optimal Nonlinearities Improve Generalization Performance of Random
Features
- arxiv url: http://arxiv.org/abs/2309.16846v1
- Date: Thu, 28 Sep 2023 20:55:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:16:24.764135
- Title: Optimal Nonlinearities Improve Generalization Performance of Random
Features
- Title(参考訳): ランダム特徴の一般化性能を改善する最適非線形性
- Authors: Samet Demir and Zafer Do\u{g}an
- Abstract要約: 非線形活性化関数を持つランダム特徴モデルは、訓練および一般化誤差の観点からガウスモデルと実演的に等価であることが示されている。
ガウスモデルから取得したパラメータが最適非線形性の集合を定義できることを示す。
最適化された非線形性はReLUのような広く使われている非線形関数よりも優れた一般化性能が得られることを示す。
- 参考スコア(独自算出の注目度): 0.9790236766474201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Random feature model with a nonlinear activation function has been shown to
perform asymptotically equivalent to a Gaussian model in terms of training and
generalization errors. Analysis of the equivalent model reveals an important
yet not fully understood role played by the activation function. To address
this issue, we study the "parameters" of the equivalent model to achieve
improved generalization performance for a given supervised learning problem. We
show that acquired parameters from the Gaussian model enable us to define a set
of optimal nonlinearities. We provide two example classes from this set, e.g.,
second-order polynomial and piecewise linear functions. These functions are
optimized to improve generalization performance regardless of the actual form.
We experiment with regression and classification problems, including synthetic
and real (e.g., CIFAR10) data. Our numerical results validate that the
optimized nonlinearities achieve better generalization performance than
widely-used nonlinear functions such as ReLU. Furthermore, we illustrate that
the proposed nonlinearities also mitigate the so-called double descent
phenomenon, which is known as the non-monotonic generalization performance
regarding the sample size and the model size.
- Abstract(参考訳): 非線形活性化関数を持つランダム特徴モデルは、訓練および一般化誤差の観点からガウスモデルと漸近的に等価であることが示されている。
等価モデルの解析は、アクティベーション関数が果たす重要なが完全には理解されていない役割を明らかにする。
この問題に対処するため,同モデルのパラメータについて検討し,与えられた教師付き学習問題の一般化性能を向上させる。
ガウスモデルから取得したパラメータが最適非線形性の集合を定義できることを示す。
この集合から2階多項式と分割線形関数という2つの例クラスを提供する。
これらの関数は、実際の形式に関係なく、一般化性能を改善するために最適化される。
我々は、合成データや実データ(例えば、CIFAR10)を含む回帰と分類の問題を実験する。
最適化された非線形性はReLUのような広く使われている非線形関数よりも優れた一般化性能が得られることを示す。
さらに,提案する非線形性は,サンプルサイズとモデルサイズに関する非単調汎化性能として知られているいわゆる二重降下現象を緩和することを示した。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Linear Stability Hypothesis and Rank Stratification for Nonlinear Models [3.0041514772139166]
モデルランクを「パラメータの有効サイズ」として発見するための一般非線形モデルのためのランク階層化を提案する。
これらの結果から、目標関数のモデルランクは、その回復を成功させるために、最小限のトレーニングデータサイズを予測する。
論文 参考訳(メタデータ) (2022-11-21T16:27:25Z) - A generalization gap estimation for overparameterized models via the
Langevin functional variance [6.231304401179968]
関数分散は過パラメータ設定においても一般化ギャップを特徴付けることを示す。
本稿では,関数分散の効率的な近似,関数分散のランゲヴィン近似(Langevin FV)を提案する。
論文 参考訳(メタデータ) (2021-12-07T12:43:05Z) - Hessian Eigenspectra of More Realistic Nonlinear Models [73.31363313577941]
私たちは、非線形モデルの広いファミリーのためのヘッセン固有スペクトルの言語的特徴付けを行います。
我々の分析は、より複雑な機械学習モデルで観察される多くの顕著な特徴の起源を特定するために一歩前進する。
論文 参考訳(メタデータ) (2021-03-02T06:59:52Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z) - Non-parametric Models for Non-negative Functions [48.7576911714538]
同じ良い線形モデルから非負関数に対する最初のモデルを提供する。
我々は、それが表現定理を認め、凸問題に対する効率的な二重定式化を提供することを証明した。
論文 参考訳(メタデータ) (2020-07-08T07:17:28Z) - Slice Sampling for General Completely Random Measures [74.24975039689893]
本稿では, 後続推定のためのマルコフ連鎖モンテカルロアルゴリズムについて, 補助スライス変数を用いてトランケーションレベルを適応的に設定する。
提案アルゴリズムの有効性は、いくつかの一般的な非パラメトリックモデルで評価される。
論文 参考訳(メタデータ) (2020-06-24T17:53:53Z) - The role of optimization geometry in single neuron learning [12.891722496444036]
近年,表現型ニューラルネットワークの学習において,最適化アルゴリズムの選択が一般化性能に影響を与えることが実証されている。
幾何学と特徴幾何学の相互作用が、どのようにしてアウト・オブ・サンプレットを導き、性能を向上させるかを示す。
論文 参考訳(メタデータ) (2020-06-15T17:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。