論文の概要: Impact of Bottleneck Layers and Skip Connections on the Generalization of Linear Denoising Autoencoders
- arxiv url: http://arxiv.org/abs/2505.24668v1
- Date: Fri, 30 May 2025 14:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.012546
- Title: Impact of Bottleneck Layers and Skip Connections on the Generalization of Linear Denoising Autoencoders
- Title(参考訳): リニアデノイングオートエンコーダの一般化に及ぼすボトルネック層とスキップ接続の影響
- Authors: Jonghyun Ham, Maximilian Fleissner, Debarghya Ghoshdastidar,
- Abstract要約: 勾配流下で訓練された2層線形デノナイジングオートエンコーダに着目した。
学習した解に対するランク制約を効果的に実施する低次元ボトルネック層。
スキップ接続は オートエンコーダの 分散を緩和できる
- 参考スコア(独自算出の注目度): 6.178817969919849
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern deep neural networks exhibit strong generalization even in highly overparameterized regimes. Significant progress has been made to understand this phenomenon in the context of supervised learning, but for unsupervised tasks such as denoising, several open questions remain. While some recent works have successfully characterized the test error of the linear denoising problem, they are limited to linear models (one-layer network). In this work, we focus on two-layer linear denoising autoencoders trained under gradient flow, incorporating two key ingredients of modern deep learning architectures: A low-dimensional bottleneck layer that effectively enforces a rank constraint on the learned solution, as well as the possibility of a skip connection that bypasses the bottleneck. We derive closed-form expressions for all critical points of this model under product regularization, and in particular describe its global minimizer under the minimum-norm principle. From there, we derive the test risk formula in the overparameterized regime, both for models with and without skip connections. Our analysis reveals two interesting phenomena: Firstly, the bottleneck layer introduces an additional complexity measure akin to the classical bias-variance trade-off -- increasing the bottleneck width reduces bias but introduces variance, and vice versa. Secondly, skip connection can mitigate the variance in denoising autoencoders -- especially when the model is mildly overparameterized. We further analyze the impact of skip connections in denoising autoencoder using random matrix theory and support our claims with numerical evidence.
- Abstract(参考訳): 現代のディープニューラルネットワークは、高度にパラメータ化された状態においても強力な一般化を示す。
教師付き学習の文脈において、この現象を理解するために重要な進歩がなされてきたが、認知のような教師なしのタスクについては、いくつかのオープンな疑問が残っている。
近年のいくつかの研究は、線形復号化問題の試験誤差をうまく評価しているが、それらは線形モデル(一層ネットワーク)に限られている。
本研究では,近年のディープラーニングアーキテクチャの主要な要素である,学習ソリューションのランク制約を効果的に実施する低次元ボトルネック層と,ボトルネックを回避したスキップ接続の可能性の2つを取り入れた,勾配流下で訓練された2層線形デノナイジングオートエンコーダに着目した。
我々は、積正則化の下で、このモデルのすべての臨界点に対する閉形式表現を導き、特に、最小ノルム原理の下で、その大域的最小化を記述する。
そこから、接続をスキップしないモデルに対しても、過パラメータ化方式でテストリスク式を導出する。
まず、ボトルネック層は、古典的なバイアス分散トレードオフに類似した、さらなる複雑さの指標を導入します -- ボトルネック幅の増大はバイアスを低減しますが、その逆も起こります。また、スキップ接続は、デノナイズオートエンコーダのばらつきを緩和します。特にモデルが軽度にパラメータ化されている場合です。
さらに、ランダム行列理論を用いて自動エンコーダの復号化におけるスキップ接続の影響を解析し、数値的な証拠で我々の主張を裏付ける。
関連論文リスト
- Accelerating Diffusion Language Model Inference via Efficient KV Caching and Guided Diffusion [16.99620863197586]
拡散言語モデルは並列トークン生成と本質的に双方向性を提供する。
最先端拡散モデル(ドリーム7B、LLaDA 8Bなど)は推論が遅い。
我々は,トークンアンマキングを監督するために,軽量な事前学習型自己回帰モデルを用いた学習自由度法であるガイドド拡散を導入する。
拡散言語モデルが初めて、広く採用されている自己回帰モデルと同等かつ高速なレイテンシを実現する。
論文 参考訳(メタデータ) (2025-05-27T17:39:39Z) - High-dimensional Asymptotics of Denoising Autoencoders [0.0]
重み付けされた2層非線形オートエンコーダとスキップ接続を用いてガウス混合体からデータをデノベートする問題に対処する。
平均二乗検定誤差を判定するためのクローズドフォーム式を提供する。
論文 参考訳(メタデータ) (2023-05-18T15:35:11Z) - Fundamental Limits of Two-layer Autoencoders, and Achieving Them with
Gradient Methods [91.54785981649228]
本稿では,非線形二層型オートエンコーダについて述べる。
本結果は,人口リスクの最小化要因を特徴付け,その最小化要因が勾配法によって達成されることを示す。
符号アクティベーション関数の特別な場合において、この解析は、シャローオートエンコーダによるガウス音源の損失圧縮の基本的な限界を確立する。
論文 参考訳(メタデータ) (2022-12-27T12:37:34Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Robust Training under Label Noise by Over-parameterization [41.03008228953627]
本稿では,トレーニングラベルの比率が低下した分類タスクにおいて,過パラメータ化深層ネットワークの堅牢なトレーニングを行うための原則的手法を提案する。
ラベルノイズはクリーンデータから学んだネットワークと疎結合なので、ノイズをモデル化してデータから分離することを学びます。
注目すべきは、このような単純な手法を用いて訓練を行う場合、様々な実データに対してラベルノイズに対する最先端のテスト精度を示すことである。
論文 参考訳(メタデータ) (2022-02-28T18:50:10Z) - Benign Overfitting without Linearity: Neural Network Classifiers Trained
by Gradient Descent for Noisy Linear Data [44.431266188350655]
勾配降下による一般化を訓練した2層ニューラルネットワークの一般化誤差を考察する。
ニューラルネットワークはトレーニングエラーをゼロにし、ノイズの多いトレーニングラベルを完璧に適合させ、同時に最小限のテストエラーを達成できる。
線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形であるような環境で成り立っている。
論文 参考訳(メタデータ) (2022-02-11T23:04:00Z) - Bilevel learning of l1-regularizers with closed-form gradients(BLORC) [8.138650738423722]
本稿では,スパーシティー促進型正規化器の教師あり学習法を提案する。
これらのパラメータは、基底真理信号と測定ペアのトレーニングセットにおける再構成の平均2乗誤差を最小限に抑えるために学習される。
論文 参考訳(メタデータ) (2021-11-21T17:01:29Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。