論文の概要: Step by Step Network
- arxiv url: http://arxiv.org/abs/2511.14329v1
- Date: Tue, 18 Nov 2025 10:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.053314
- Title: Step by Step Network
- Title(参考訳): Step by Step Network
- Authors: Dongchen Han, Tianzhu Ye, Zhuofan Xia, Kaiyi Chen, Yulin Wang, Hanting Chen, Gao Huang,
- Abstract要約: ネットワーク深さのスケールアップは、ニューラルアーキテクチャ設計における基本的な追求である。
本稿では,残差モデルのスケーリングを阻害する2つの重要な障壁,すなわちショートカット劣化と制限幅を同定する。
本稿では,ステップ・バイ・ステップ・ネットワーク(StepsNet)と呼ばれる,理論的ポテンシャルと実用性能のギャップを埋めるために,一般化された残差アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 56.413861208019576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling up network depth is a fundamental pursuit in neural architecture design, as theory suggests that deeper models offer exponentially greater capability. Benefiting from the residual connections, modern neural networks can scale up to more than one hundred layers and enjoy wide success. However, as networks continue to deepen, current architectures often struggle to realize their theoretical capacity improvements, calling for more advanced designs to further unleash the potential of deeper networks. In this paper, we identify two key barriers that obstruct residual models from scaling deeper: shortcut degradation and limited width. Shortcut degradation hinders deep-layer learning, while the inherent depth-width trade-off imposes limited width. To mitigate these issues, we propose a generalized residual architecture dubbed Step by Step Network (StepsNet) to bridge the gap between theoretical potential and practical performance of deep models. Specifically, we separate features along the channel dimension and let the model learn progressively via stacking blocks with increasing width. The resulting method mitigates the two identified problems and serves as a versatile macro design applicable to various models. Extensive experiments show that our method consistently outperforms residual models across diverse tasks, including image classification, object detection, semantic segmentation, and language modeling. These results position StepsNet as a superior generalization of the widely adopted residual architecture.
- Abstract(参考訳): ネットワーク深さのスケールアップは、より深いモデルが指数関数的に大きな能力を提供するという理論が示すように、ニューラルネットワーク設計における基本的な追求である。
残余の接続から恩恵を受けるため、現代のニューラルネットワークは100以上の層にスケールアップでき、幅広い成功を享受できる。
しかし、ネットワークの深化が進むにつれて、現在のアーキテクチャは理論的な能力向上の実現に苦慮し、より高度な設計でより深いネットワークの可能性を解き放つように求めている。
本稿では,残差モデルのスケーリングを阻害する2つの重要な障壁,すなわちショートカット劣化と制限幅を同定する。
ショートカット劣化は深層学習を妨げるが、固有の深さ幅のトレードオフは幅を制限している。
これらの問題を緩和するため、我々はステップ・バイ・ステップ・ネットワーク(StepsNet)と呼ばれる一般化された残差アーキテクチャを提案し、深層モデルの理論的ポテンシャルと実用性能のギャップを埋める。
具体的には、チャネル次元に沿って特徴を分離し、幅を拡大した積み重ねブロックを通じてモデルを段階的に学習させる。
提案手法は,2つの問題を緩和し,様々なモデルに適用可能な汎用マクロ設計として機能する。
本手法は画像分類,オブジェクト検出,セマンティックセグメンテーション,言語モデリングなど,様々なタスクにまたがる残差モデルに一貫して優れることを示す。
これらの結果はStepsNetを広く採用されている残留アーキテクチャの優れた一般化として位置づけている。
関連論文リスト
- Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Feature-Learning Networks Are Consistent Across Widths At Realistic
Scales [72.27228085606147]
様々なアーキテクチャやデータセットにわたる特徴学習ニューラルネットワークのダイナミクスに対する幅の影響について検討する。
トレーニングの初期、オンラインデータでトレーニングされた広範なニューラルネットワークは、損失曲線が同じであるだけでなく、トレーニング全体を通じてポイントワイドなテスト予測に一致している。
しかし、より狭いネットワークのアンサンブルは、単一のワイドネットワークよりも性能が劣っている。
論文 参考訳(メタデータ) (2023-05-28T17:09:32Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Do Wide and Deep Networks Learn the Same Things? Uncovering How Neural
Network Representations Vary with Width and Depth [32.757486048358416]
モデル隠れ表現の深さと幅の変化がどう影響するかを考察する。
より大きなキャパシティ(より広範またはより深い)モデルの隠れ表現に特徴的なブロック構造が見つかる。
この発見は、異なるモデルによって学習された特徴に重要な影響をもたらす。
論文 参考訳(メタデータ) (2020-10-29T02:57:21Z) - Grow-Push-Prune: aligning deep discriminants for effective structural
network compression [5.532477732693]
本稿では,タスク依存型コンパクトモデルの深層判別分析の観点から導出を試みる。
本稿では,プッシュステップとプルーニングステップを交互に交互に行う分類タスクに対して,反復的かつ積極的なアプローチを提案する。
MNIST、CIFAR10、ImageNetデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-09-29T01:29:23Z) - Automated Search for Resource-Efficient Branched Multi-Task Networks [81.48051635183916]
我々は,多タスクニューラルネットワークにおける分岐構造を自動的に定義する,微分可能なニューラルネットワーク探索に根ざした原理的アプローチを提案する。
本手法は,限られた資源予算内で高い性能の分岐構造を見いだすことができる。
論文 参考訳(メタデータ) (2020-08-24T09:49:19Z) - Asymptotics of Wide Convolutional Neural Networks [18.198962344790377]
スキップ接続を有する広帯域CNNおよびネットワークのスケーリング法則について検討する。
有限幅モデルと無限幅モデルのパフォーマンス差は,モデル幅に対して一定の速度で消失することがわかった。
論文 参考訳(メタデータ) (2020-08-19T21:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。