論文の概要: ANCRe: Adaptive Neural Connection Reassignment for Efficient Depth Scaling
- arxiv url: http://arxiv.org/abs/2602.09009v1
- Date: Mon, 09 Feb 2026 18:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.437137
- Title: ANCRe: Adaptive Neural Connection Reassignment for Efficient Depth Scaling
- Title(参考訳): ANCRe: 効率的な深さスケーリングのための適応型ニューラルネットワーク再割り当て
- Authors: Yilang Zhang, Bingcong Li, Niao He, Georgios B. Giannakis,
- Abstract要約: ネットワークの深度を拡大することは、現代の基礎モデルの成功の背後にある中心的な要因である。
本稿では,ニューラルネットワークの奥行き,すなわち残差接続の既定メカニズムを再考する。
我々は、データから残余接続性をパラメータ化し、学習する原則的かつ軽量なフレームワークである、適応型ニューラルネットワーク再割り当て(ANCRe)を導入する。
- 参考スコア(独自算出の注目度): 57.91760520589592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling network depth has been a central driver behind the success of modern foundation models, yet recent investigations suggest that deep layers are often underutilized. This paper revisits the default mechanism for deepening neural networks, namely residual connections, from an optimization perspective. Rigorous analysis proves that the layout of residual connections can fundamentally shape convergence behavior, and even induces an exponential gap in convergence rates. Prompted by this insight, we introduce adaptive neural connection reassignment (ANCRe), a principled and lightweight framework that parameterizes and learns residual connectivities from the data. ANCRe adaptively reassigns residual connections with negligible computational and memory overhead ($<1\%$), while enabling more effective utilization of network depth. Extensive numerical tests across pre-training of large language models, diffusion models, and deep ResNets demonstrate consistently accelerated convergence, boosted performance, and enhanced depth efficiency over conventional residual connections.
- Abstract(参考訳): ネットワークの深さを拡大することは、現代の基礎モデルの成功の背後にある中心的な要因であるが、最近の調査では、ディープレイヤがしばしば使われていないことが示唆されている。
本稿では,ニューラルネットワーク,すなわち残差接続を最適化の観点から深化するための既定のメカニズムを再考する。
厳密な解析により、残差接続のレイアウトは基本的に収束挙動を形作ることができ、収束率の指数的なギャップを生じさせる。
この知見により、データから残余接続性をパラメータ化し、学習する原則的かつ軽量なフレームワークである、適応型ニューラルネットワーク再割り当て(ANCRe)を導入する。
ANCReは、ネットワーク深度をより効果的に活用しながら、無視可能な計算およびメモリオーバーヘッド(<1\%$)で残余接続を適応的に再割り当てする。
大規模言語モデル,拡散モデル,深部ResNetの事前学習における広範囲な数値実験により,連続的に収束し,性能が向上し,従来の残差接続よりも深度効率が向上した。
関連論文リスト
- Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Lattice-Based Pruning in Recurrent Neural Networks via Poset Modeling [0.0]
リカレントニューラルネットワーク(RNN)はシーケンスモデリングタスクの中心であるが、その高い計算複雑性はスケーラビリティとリアルタイムデプロイメントの課題を引き起こす。
本稿では,RNNを部分的に順序付けられた集合(命題)としてモデル化し,対応する依存格子を構成する新しいフレームワークを提案する。
既約ニューロンを同定することにより、格子ベースのプルーニングアルゴリズムは、冗長なニューロンを除去しながら、重要な接続を選択的に保持する。
論文 参考訳(メタデータ) (2025-02-23T10:11:38Z) - Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
本稿では,DeepONetのトレーニングに採用するランダムサンプリング手法を提案する。
従来のトレーニングアプローチと比較して、テスト全体のエラーを同等あるいは低いものにしながら、トレーニング時間の大幅な削減を実証する。
この結果から,訓練中のトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性とロバスト性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-20T07:18:31Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Implicit Under-Parameterization Inhibits Data-Efficient Deep
Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。
AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文 参考訳(メタデータ) (2020-10-27T17:55:16Z) - Kernel-Based Smoothness Analysis of Residual Networks [85.20737467304994]
ResNets(Residual Networks)は、これらの強力なモダンアーキテクチャの中でも際立っている。
本稿では,2つのモデル,すなわちResNetsが勾配よりもスムーズな傾向を示す。
論文 参考訳(メタデータ) (2020-09-21T16:32:04Z) - Iterative Network for Image Super-Resolution [69.07361550998318]
単一画像超解像(SISR)は、最近の畳み込みニューラルネットワーク(CNN)の発展により、大幅に活性化されている。
本稿では、従来のSISRアルゴリズムに関する新たな知見を提供し、反復最適化に依存するアプローチを提案する。
反復最適化の上に,新しい反復型超解像ネットワーク (ISRN) を提案する。
論文 参考訳(メタデータ) (2020-05-20T11:11:47Z) - Compact Neural Representation Using Attentive Network Pruning [1.0152838128195465]
本稿では,Bottom-Upフィードフォワードネットワークに付加されたTop-Downアテンション機構について述べる。
提案手法は, 新たな階層選択機構をプルーニングの基礎として導入するだけでなく, 実験評価において, 従来のベースライン手法と競合するままである。
論文 参考訳(メタデータ) (2020-05-10T03:20:01Z) - Depth Enables Long-Term Memory for Recurrent Neural Networks [0.0]
本稿では,スタートエンド分離ランク(Start-End separation rank)と呼ばれる時間的情報フローを支援するネットワークの能力を評価する。
より深い再帰的ネットワークは、浅いネットワークで支えられるものよりも高いスタートエンド分離ランクをサポートすることを証明している。
論文 参考訳(メタデータ) (2020-03-23T10:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。