論文の概要: A Geometric Analysis of Sign-Magnitude Asymmetry in a ReLU + RMSNorm Block under Ternary Quantization
- arxiv url: http://arxiv.org/abs/2605.18933v1
- Date: Mon, 18 May 2026 15:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.889691
- Title: A Geometric Analysis of Sign-Magnitude Asymmetry in a ReLU + RMSNorm Block under Ternary Quantization
- Title(参考訳): 第三次量子化下におけるReLU + RMSノームブロックにおける符号-マグニチュード非対称性の幾何学的解析
- Authors: Lei Dong,
- Abstract要約: RMSNormを許容する3次10,+1重み量子化を持つプレノーム変圧器。
重み摂動の符号-マグニチュード分解による幾何学的説明を与える。
- 参考スコア(独自算出の注目度): 4.778602479004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-norm Transformers with RMSNorm tolerate ternary {-1,0,+1} weight quantization with surprisingly small loss (Ma et al., 2024). We give a geometric explanation via sign-magnitude decomposition of weight perturbations. In a two-layer ReLU + RMSNorm model with i.i.d. Gaussian weights, sign-flips produce $π/(π-2) \approx 2.75$ times more transverse output energy than sign-preserving magnitude perturbations of equal Frobenius norm, as the flip rate $p \to 0$ (Theorem 3). The mechanism: ReLU creates a hidden-space directional asymmetry between the two perturbation types, which RMSNorm's transverse-projection Fréchet derivative selectively exposes. Sign-quantization error is itself a sign-preserving perturbation with angular alignment $\cos^2 \to 2/π$ (Theorem 4); its post-ReLU radial fraction ($0.365$) matches the pre-ReLU value $1-2/π$ within $0.4\%$, so ReLU is approximately transparent to ternary error. Multi-layer compounding of the $2.75\times$ factor is not experimentally supported; the gap to real-model sign sensitivity arises from outlier features violating delocalization. For an input dimension with amplitude $α$, a single sign-flip produces post-ReLU energy amplified by $R \approx nα^2$ relative to a delocalized entry. On TinyLlama-1.1B, at linear response ($p \leq 0.5\%$), count-matched NLL leverage stabilizes at $\sim 10\times \approx n\mathbb{E}[α^2]$, matching the per-entry theory; the all-column NLL ratio of $5.0\times$ falls within $R_{\mathrm{col}} \leq 19$ ($67\times$ PPL gap reflects metric nonlinearity). Measured outlier $α$ at layer 12 (median $0.024$, max $0.26$) confirms heavy-tailed concentration. The Bussgang constant $2/π$, RMSNorm geometry, and ReLU half-space structure together explain sign-magnitude asymmetry in pre-norm models, with $R \propto nα^2$ accounting for real-model deviations.
- Abstract(参考訳): RMSNorm を許容する3次 {-1,0,+1} 重み量子化と驚くほど小さな損失を持つプレノーム変換器(Ma et al , 2024)。
重み摂動の符号-マグニチュード分解による幾何学的説明を与える。
ガウス重みの 2 層 ReLU + RMSNorm モデルでは、フリップレート $p \to 0$ (Theorem 3) として、符号フリップはフロベニウスノルムの符号保存大摂動よりも π/(π-2) \approx 2.75$ の逆出力エネルギーを生成する。
メカニズム: ReLUは2つの摂動型の間に隠れた空間方向の非対称性を生成し、RMSNormの横射影フレシェ微分が選択的に露出する。
符号量子化誤差はそれ自体、角アライメント$\cos^2 \to 2/π$ (Theorem 4; そのポストReLUラジアル分数$0.365$) の符号保存摂動である。
2.75\times$因子の多層複合化は実験的には支持されないが、実モデル符号感度とのギャップは非局在化を阻害するオフリー特徴から生じる。
振幅$α$の入力次元に対して、シングルサインフリップは、非局在化エントリに対して$R \approx nα^2$で増幅されたポストReLUエネルギーを生成する。
TinyLlama-1.1B では、線形応答 (p \leq 0.5\%$) において、カウントマッチング NLL の安定化は $\sim 10\times \approx n\mathbb{E}[α^2]$ と一致する。
層12におけるα$の測定値(中間値0.024$、最大値0.26$)は、重尾濃度を確認する。
バスガングは定数2/π$、RMSノルム幾何学、ReLU半空間構造を共に説明し、実モデルの偏差を$R \propto nα^2$で説明できる。
関連論文リスト
- OAM-Induced Lattice Rotation Reveals a Fractional Optimum in Fault-Tolerant GKP Quantum Sensing [0.0]
軌道角モメンタム符号化とGottesman-Kitaev-Preskill(GKP)格子幾何学が構造的に結合していることを確立する。
終端から終端までの微分可能なStrawberry Fields--TensorFlow回路を用いて、$ell$、格子アスペクト比$r$、および有限エネルギーエンベロープ$$を共に最適化し、量子フィッシャー情報を最大化する。
論文 参考訳(メタデータ) (2026-05-13T09:49:16Z) - When Does $\ell_2$-Boosting Overfit Benignly? High-Dimensional Risk Asymptotics and the $\ell_1$ Implicit Bias [15.113649527486276]
良性オーバーフィッティングが線形レートで失敗することを示します。
この局所化機構は信号の存在下で持続するべきであるが、正確な信号-雑音分解は未解決の問題である。
論文 参考訳(メタデータ) (2026-05-07T14:14:09Z) - Rényi exponent landscape of multipartite entanglement in free-fermion systems [51.56484100374058]
我々は、Rényi tripartite information $I_3() が小フェルミ運動量での質的に $exclusion-dependent scaling を示すことを示した。
I_m(n)/I_m(1) sim zm-1 to 0$ for all integer $n geq 2$, so the leading von Neumann signal can builded from integer Rényi data。
論文 参考訳(メタデータ) (2026-03-09T22:27:00Z) - Tripartite information of free fermions: a universal entanglement coefficient from the sine kernel [51.56484100374058]
自由フェルミオンの3分割情報I_3を3つの隣接する幅wに分割した2次元格子上で検討する。
g(z) は z* = 1.329 +/- 0.001: で一意な零点を持ち、k_F w z* のモードは相互情報の独占に反する。
z ln z の領域法則項と z2 の項の2つの正確なキャンセルは、I_3 の組み合わせに固有のものである。
論文 参考訳(メタデータ) (2026-03-03T15:39:35Z) - A Unified Framework for Uniform Signal Recovery in Nonlinear Generative
Compressed Sensing [68.80803866919123]
非線形測定では、ほとんどの先行結果は一様ではない、すなわち、すべての$mathbfx*$に対してではなく、固定された$mathbfx*$に対して高い確率で保持される。
本フレームワークはGCSに1ビット/一様量子化観測と単一インデックスモデルを標準例として適用する。
また、指標集合が計量エントロピーが低い製品プロセスに対して、より厳密な境界を生み出す濃度不等式も開発する。
論文 参考訳(メタデータ) (2023-09-25T17:54:19Z) - Measurement-induced phase transition for free fermions above one dimension [46.176861415532095]
自由フェルミオンモデルに対する$d>1$次元における測定誘起エンタングルメント相転移の理論を開発した。
臨界点は、粒子数と絡み合いエントロピーの第2累積のスケーリング$$elld-1 ln ell$でギャップのない位相を分離する。
論文 参考訳(メタデータ) (2023-09-21T18:11:04Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。