Fugu-MT 論文翻訳(概要): ZC-Swish: Stabilizing Deep BN-Free Networks for Edge and Micro-Batch Applications

論文の概要: ZC-Swish: Stabilizing Deep BN-Free Networks for Edge and Micro-Batch Applications

arxiv url: http://arxiv.org/abs/2604.19453v1
Date: Tue, 21 Apr 2026 13:32:57 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-22 22:41:49.786079
Title: ZC-Swish: Stabilizing Deep BN-Free Networks for Edge and Micro-Batch Applications
Title（参考訳）: ZC-Swish:エッジおよびマイクロバッチアプリケーションのためのディープBNフリーネットワークの安定化
Authors: Suvinava Basak,
Abstract要約: バッチ正規化(BN)は深層学習の基盤であるが、マイクロバッチ体制では崩壊する。我々はゼロ中心スウィッシュ (ZC-Swish) を提案し、ゼロに近い動的アンカー活性化手段にパラメータ化されるドロップインアクティベーション関数を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Batch Normalization (BN) is a cornerstone of deep learning, yet it fundamentally breaks down in micro-batch regimes (e.g., 3D medical imaging) and non-IID Federated Learning. Removing BN from deep architectures, however, often leads to catastrophic training failures such as vanishing gradients and dying channels. We identify that standard activation functions, like Swish and ReLU, exacerbate this instability in BN-free networks due to their non-zero-centered nature, which causes compounding activation mean-shifts as network depth increases. In this technical communication, we propose Zero-Centered Swish (ZC-Swish), a drop-in activation function parameterized to dynamically anchor activation means near zero. Through targeted stress-testing on BN-free convolutional networks at depths 8, 16, and 32, we demonstrate that while standard Swish collapses to near-random performance at depth 16 and beyond, ZC-Swish maintains stable layer-wise activation dynamics and achieves the highest test accuracy at depth 16 (51.5%) with seed 42. ZC-Swish thus provides a robust, parameter-efficient solution for stabilizing deep networks in memory-constrained and privacy-preserving applications where traditional normalization is unviable.
Abstract（参考訳）: バッチ正規化(BN)はディープラーニングの基盤であるが、マイクロバッチ(例えば3D医療画像)と非IIDフェデレートラーニング(英語版)で根本的に崩壊する。しかし、深いアーキテクチャからBNを取り除くと、勾配や死角などの破滅的な訓練が失敗することが多い。我々は、SwishやReLUのような標準活性化関数がBNフリーネットワークにおいて、その非ゼロ中心の性質により不安定性を悪化させ、ネットワーク深度が増大するにつれて、複合活性化平均シフトを引き起こすことを確認した。本稿では,ゼロ中心スウィッシュ(ZC-Swish,ZC-Swish,ZC-Swish)を提案する。 BNフリーな畳み込みネットワークの深さ8, 16, 32での目標応力試験により、標準スウィッシュは深さ16以上のほぼランダムな性能に崩壊するが、ZC-Swishは安定した層ワイドアクティベーションダイナミクスを維持し、シード42の深さ16(51.5%)で最高テスト精度を達成することを示した。従ってZC-Swishは、従来の正規化が不可能なメモリ制限およびプライバシ保護アプリケーションにおいて、ディープネットワークを安定化するための堅牢でパラメータ効率のよいソリューションを提供する。

関連論文リスト

Adversarial robustness through Lipschitz-Guided Stochastic Depth in Neural Networks [0.0]
ディープニューラルネットワークとビジョントランスフォーマーはコンピュータビジョンにおける最先端のパフォーマンスを達成するが、敵の計算には非常に脆弱である。本稿では,リプシッツ誘導深度(DropPath)法を提案する。 CIFAR-10とViT-Tinyを用いた実験により、我々のカスタム深度依存スケジュールは、ほぼベースラインのクリーニング精度を維持し、FGSM、PGD-20、AutoAttackでのロバスト性を向上し、ベースラインおよびリニアDropPathスケジュールと比較してFLOPを大幅に低減することが示された。
論文参考訳（メタデータ） (2025-09-12T14:38:18Z)
Optimized Weight Initialization on the Stiefel Manifold for Deep ReLU Neural Networks [5.363441578662801]
ReLUネットワークの不適切な重量トレーニングは、ネットワーク深さが増加するにつれて不活性化死ReLUを悪化させ、不安定を悪化させる可能性がある。我々は、スティーフェル多様体上の最適化問題を導入し、これによりスケールを保ち、プレアクティベーション統計を校正する。本研究では, 死滅するReLU問題の防止, アクティベーション分散の緩やかな減衰, 勾配消滅の緩和について述べる。
論文参考訳（メタデータ） (2025-08-30T05:17:31Z)
Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文参考訳（メタデータ） (2025-06-20T17:54:24Z)
On the Stability of the Jacobian Matrix in Deep Neural Networks [9.617753464544606]
我々は、疎度と弱相関重みに対応するディープニューラルネットワークの一般的な安定性定理を確立する。この結果は、確率行列理論の最近の進歩に依拠し、より広範なネットワークモデルにおけるスペクトル安定性の厳密な保証を提供する。
論文参考訳（メタデータ） (2025-06-10T13:04:42Z)
Globally Optimal Training of Neural Networks with Threshold Activation Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文参考訳（メタデータ） (2023-03-06T18:59:13Z)
An Adaptive Batch Normalization in Deep Learning [0.0]
バッチ正規化(BN)は、深層畳み込みニューラルネットワークのトレーニングを加速し、安定させる方法である。本稿では、BNを必要とするデータとそれを必要としないデータを分離する、しきい値に基づく適応的なBNアプローチを提案する。
論文参考訳（メタデータ） (2022-11-03T12:12:56Z)
Robustness in deep learning: The good (width), the bad (depth), and the ugly (initialization) [60.21582414287523]
我々は、(選択された)幅、幅、深さ、浅いディープニューラルネットワークにおける平均ロバスト性の概念と、遅延および非遅延トレーニング設定について検討する。
論文参考訳（メタデータ） (2022-09-15T12:55:16Z)
Edge Rewiring Goes Neural: Boosting Network Resilience via Policy Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。 ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文参考訳（メタデータ） (2021-10-18T06:14:28Z)
Improve Generalization and Robustness of Neural Networks via Weight Scale Shifting Invariant Regularizations [52.493315075385325]
重み劣化を含む正則化器の族は、均質な活性化関数を持つネットワークに対する本質的な重みのノルムをペナルティ化するのに有効でないことを示す。そこで我々は,ニューラルネットワークの本質的な規範を効果的に制約する改良型正規化器を提案する。
論文参考訳（メタデータ） (2020-08-07T02:55:28Z)
Manifold Regularization for Locally Stable Deep Neural Networks [5.892876463573452]
我々の正規化器はグラフラプラシアンのスパース化に基づいており、データは高次元でスパースであるときに高い確率で保持される。我々のネットワークは、$ell$、$ell_infty$、Wassersteinベースの摂動を含む様々な摂動モデルにおいて安定性を示す。適応PGD攻撃に対するCIFAR-10の正逆精度は, $ell_infty$ perturbations of size $epsilon = 8/255$, State-of-the-the-art confirmed accuracy of 21% in the same perturbation modelを用いて達成した。
論文参考訳（メタデータ） (2020-03-09T17:45:44Z)
On Random Kernels of Residual Architectures [93.94469470368988]
ResNets と DenseNets のニューラルタンジェントカーネル (NTK) に対して有限幅および深さ補正を導出する。その結果,ResNetsでは,深さと幅が同時に無限大となるとNTKへの収束が生じる可能性が示唆された。しかし、DenseNetsでは、NTKの幅が無限大になる傾向があるため、その限界への収束が保証されている。
論文参考訳（メタデータ） (2020-01-28T16:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。