論文の概要: Improving Adaptivity via Over-Parameterization in Sequence Models
- arxiv url: http://arxiv.org/abs/2409.00894v2
- Date: Thu, 31 Oct 2024 13:05:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 03:35:26.171079
- Title: Improving Adaptivity via Over-Parameterization in Sequence Models
- Title(参考訳): 配列モデルにおける過度パラメータ化による適応性の向上
- Authors: Yicheng Li, Qian Lin,
- Abstract要約: 同じ固有関数の集合であっても、これらの関数の順序は回帰結果に大きな影響を及ぼすことを示す。
列モデルの領域に過パラメータ化勾配勾配を導入し、固定された固有関数集合の様々な順序の影響を捉える。
- 参考スコア(独自算出の注目度): 11.644182973599788
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: It is well known that eigenfunctions of a kernel play a crucial role in kernel regression. Through several examples, we demonstrate that even with the same set of eigenfunctions, the order of these functions significantly impacts regression outcomes. Simplifying the model by diagonalizing the kernel, we introduce an over-parameterized gradient descent in the realm of sequence model to capture the effects of various orders of a fixed set of eigen-functions. This method is designed to explore the impact of varying eigenfunction orders. Our theoretical results show that the over-parameterization gradient flow can adapt to the underlying structure of the signal and significantly outperform the vanilla gradient flow method. Moreover, we also demonstrate that deeper over-parameterization can further enhance the generalization capability of the model. These results not only provide a new perspective on the benefits of over-parameterization and but also offer insights into the adaptivity and generalization potential of neural networks beyond the kernel regime.
- Abstract(参考訳): カーネルの固有関数がカーネル回帰において重要な役割を果たすことはよく知られている。
いくつかの例を通して、同じ固有関数の集合であっても、これらの関数の順序が回帰結果に大きな影響を及ぼすことを示した。
カーネルを対角化することでモデルを単純化し、列モデルの領域に過度にパラメータ化された勾配降下を導入し、固定された固有関数集合の様々な順序の影響を捉える。
この方法は様々な固有関数順序の影響を探索するために設計されている。
理論的には、過パラメータ化勾配流は信号の基盤構造に適応し、バニラ勾配流法を著しく上回ることを示す。
さらに,より深いパラメータ化により,モデルの一般化能力がさらに向上することを示す。
これらの結果は、オーバーパラメータ化のメリットに関する新たな視点を提供するだけでなく、カーネル体制を超えたニューラルネットワークの適応性と一般化の可能性に関する洞察を提供する。
関連論文リスト
- Influence Functions for Scalable Data Attribution in Diffusion Models [52.92223039302037]
拡散モデルは、生成的モデリングに大きな進歩をもたらした。
しかし、彼らの普及はデータ属性と解釈可能性に関する課題を引き起こす。
本稿では,テキスト・インフルエンス・ファンクション・フレームワークを開発することにより,このような課題に対処することを目的とする。
論文 参考訳(メタデータ) (2024-10-17T17:59:02Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - Optimal Nonlinearities Improve Generalization Performance of Random
Features [0.9790236766474201]
非線形活性化関数を持つランダム特徴モデルは、訓練および一般化誤差の観点からガウスモデルと実演的に等価であることが示されている。
ガウスモデルから取得したパラメータが最適非線形性の集合を定義できることを示す。
最適化された非線形性はReLUのような広く使われている非線形関数よりも優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-28T20:55:21Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Analysis of Catastrophic Forgetting for Random Orthogonal Transformation
Tasks in the Overparameterized Regime [9.184987303791292]
可変MNIST画像分類タスクでは,バニラ勾配降下により訓練された多層パーセプトロンの性能を向上させることができることを示す。
定性的に類似した2タスク線形回帰問題を研究することによって、この効果を理論的に説明する。
モデルが追加の正規化なしで連続的に2つのタスクで訓練された場合、最初のタスクのリスクゲインは小さくなることを示す。
論文 参考訳(メタデータ) (2022-06-01T18:04:33Z) - A generalization gap estimation for overparameterized models via the
Langevin functional variance [6.231304401179968]
関数分散は過パラメータ設定においても一般化ギャップを特徴付けることを示す。
本稿では,関数分散の効率的な近似,関数分散のランゲヴィン近似(Langevin FV)を提案する。
論文 参考訳(メタデータ) (2021-12-07T12:43:05Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - The Neural Tangent Kernel in High Dimensions: Triple Descent and a
Multi-Scale Theory of Generalization [34.235007566913396]
現代のディープラーニングモデルでは、トレーニングデータに適合するために必要なパラメータよりもはるかに多くのパラメータが採用されている。
この予期せぬ振る舞いを記述するための新たなパラダイムは、エンファンダブル降下曲線(英語版)である。
本稿では,勾配降下を伴う広帯域ニューラルネットワークの挙動を特徴付けるニューラル・タンジェント・カーネルを用いた一般化の高精度な高次元解析を行う。
論文 参考訳(メタデータ) (2020-08-15T20:55:40Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。