論文の概要: Can an MLP Absorb Its Own Skip Connection?
- arxiv url: http://arxiv.org/abs/2604.23705v1
- Date: Sun, 26 Apr 2026 13:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.511194
- Title: Can an MLP Absorb Its Own Skip Connection?
- Title(参考訳): MLPは独自のスキップ接続を吸収できるのか?
- Authors: Antonij Mijoski, Marko Karbevski,
- Abstract要約: 単層層まわりのスキップ接続が同じ幅の残余自由度に吸収される場合について検討する。
一般的な重み行列の場合、吸収がシングルブロックレベルで保持されるのは、$W_mathrmdown[:,S],W_mathrmup[S,:] = -I_d$となるような、少なくとも$d$のインデックスセットが存在する場合に限る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study when a skip connection around a single-hidden-layer MLP can be absorbed into a residual-free MLP of the same width. We first show that for any architecture whose skip branch is an invertible linear map (including Hyper-Connections and their manifold-constrained variants), the problem reduces to the identity skip case. For homogeneous activations of degree $k \neq 1$, such as ReLU$^2$ and ReGLU, absorption is unconditionally impossible by a degree argument. For gated activations whose gate is differentiable at the origin with $g(0) = 0$, including SwiGLU and GeGLU, a linearization argument gives the same conclusion. These impossibility results extend to arbitrary depth: a composition of $L$ residual blocks using such activations cannot be replicated by any composition of $L$ residual-free blocks of the same width. For ungated ReLU and GELU, the situation is richer. For generic weight matrices, absorption holds at the single-block level if and only if there exists an index set $S$ of size at least $d$ such that $W_{\mathrm{down}}[:,S]\,W_{\mathrm{up}}[S,:] = -I_d$. This condition is non-generic (it fails with probability one under continuous weight distributions), so skip-connected and residual-free MLPs of the same width represent generically disjoint function classes. Whether this disjointness persists for deep compositions of ReLU or GELU blocks remains open.
- Abstract(参考訳): 単層MLPの周囲のスキップ接続が同じ幅の残余のないMLPに吸収される場合について検討する。
まず、スキップ分岐が可逆線型写像(ハイパーコネクトとその多様体制約変数を含む)である任意のアーキテクチャについて、その問題は恒等スキップケースに還元されることを示す。
次数$k \neq 1$ の同次活性化、例えば ReLU$^2$ や ReGLU に対して、吸収は次数論により無条件に不可能である。
元のゲートが$g(0) = 0$で微分可能なゲートアクティベーションに対して、SwiGLU や GeGLU を含め、線形化引数は同じ結論を与える。
このようなアクティベーションを用いた$L$残余ブロックの合成は、同じ幅の$L$残余ブロックの合成では複製できない。
解放されたReLUとGELUにとって、状況はより豊かだ。
一般的な重み行列の場合、吸収がシングルブロックレベルで保持されるのは、$W_{\mathrm{down}}[:,S]\,W_{\mathrm{up}}[S,:] = -I_d$ となるような、少なくとも$d$のインデックスセットが存在する場合に限る。
この条件は(連続的な重み分布の下で確率1で失敗する)非ジェネリックであるため、同じ幅のスキップ連結かつ残余自由なMLPは、一般の非接合関数クラスを表す。
この不整合性がReLUやGELUブロックの深い構成に持続するかどうかは未定である。
関連論文リスト
- Leave-One-Out Prediction for General Hypothesis Classes [9.855978207725549]
本稿では,EMM周辺における経験的リスクレベルセットに基づく一般的な集約手法であるMLSA(Median of Level-Set Aggregation)を紹介する。
LOO_S(hath) ;le; C cdot frac1n min_hin H L_S(h) ;+; fracComp(S,
論文 参考訳(メタデータ) (2026-03-02T16:27:44Z) - Multiple-play Stochastic Bandits with Prioritized Arm Capacity Sharing [52.124267908936396]
このモデルは、$M$armと$K$playで構成されている。
各アームには複数の能力があり、各ユニットの能力は報酬関数に関連付けられている。
複数のプレーがアームキャパシティを競う場合、アームキャパシティは第1の優先重みで割り当てられる。
論文 参考訳(メタデータ) (2025-12-25T11:19:09Z) - Bridging the Gap Between Approximation and Learning via Optimal Approximation by ReLU MLPs of Maximal Regularity [8.28720658988688]
例えば、$(L,alpha)$-H"older関数は、$mathcalO(dnd/alpha)$, of width $mathcalO(dnd/alpha)$, depth $mathcalO(log(d))$, with $mathcalO(dnd/alpha)$, $mathcalO(dnd/alpha)$, and $mathcalO(dnd/alpha)$, with $mathcal。
論文 参考訳(メタデータ) (2024-09-18T22:05:07Z) - Depth Dependence of $\mu$P Learning Rates in ReLU MLPs [72.14317069090407]
我々は、最大更新(mu$P)学習率の$n$と$L$に依存することを研究する。
我々は、$L3/2.$のように、$L$の非自明な依存があることを発見した。
論文 参考訳(メタデータ) (2023-05-13T01:10:49Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Algorithms and SQ Lower Bounds for PAC Learning One-Hidden-Layer ReLU
Networks [48.32532049640782]
ガウス境界の下で, 1層ReLUネットワークを$k$の隠れ単位で学習する問題をmathbbRd$で研究する。
正の係数の場合、この学習問題の初回アルゴリズムを$k$から$tildeOOmega(sqrtlog d)$まで与える。
論文 参考訳(メタデータ) (2020-06-22T17:53:54Z) - Agnostic Learning of a Single Neuron with Gradient Descent [92.7662890047311]
期待される正方形損失から、最も適合した単一ニューロンを学習することの問題点を考察する。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
ReLUアクティベーションでは、我々の人口リスク保証は$O(mathsfOPT1/2)+epsilon$である。
論文 参考訳(メタデータ) (2020-05-29T07:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。