論文の概要: Momentum Residual Neural Networks
- arxiv url: http://arxiv.org/abs/2102.07870v1
- Date: Mon, 15 Feb 2021 22:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-18 05:50:27.735768
- Title: Momentum Residual Neural Networks
- Title(参考訳): Momentum Residual Neural Networks
- Authors: Michael E. Sander, Pierre Ablin, Mathieu Blondel, Gabriel Peyr\'e
- Abstract要約: モーメント項を追加することで、ResNetの前方ルールを変更することを提案する。
MomentumNetsは既存のResNetブロックのドロップイン代替として使用できる。
我々は、MomentumNetsがResNetsと同じ精度であり、メモリフットプリントがはるかに小さいことを示す。
- 参考スコア(独自算出の注目度): 22.32840998053339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The training of deep residual neural networks (ResNets) with backpropagation
has a memory cost that increases linearly with respect to the depth of the
network. A simple way to circumvent this issue is to use reversible
architectures. In this paper, we propose to change the forward rule of a ResNet
by adding a momentum term. The resulting networks, momentum residual neural
networks (MomentumNets), are invertible. Unlike previous invertible
architectures, they can be used as a drop-in replacement for any existing
ResNet block. We show that MomentumNets can be interpreted in the infinitesimal
step size regime as second-order ordinary differential equations (ODEs) and
exactly characterize how adding momentum progressively increases the
representation capabilities of MomentumNets. Our analysis reveals that
MomentumNets can learn any linear mapping up to a multiplicative factor, while
ResNets cannot. In a learning to optimize setting, where convergence to a fixed
point is required, we show theoretically and empirically that our method
succeeds while existing invertible architectures fail. We show on CIFAR and
ImageNet that MomentumNets have the same accuracy as ResNets, while having a
much smaller memory footprint, and show that pre-trained MomentumNets are
promising for fine-tuning models.
- Abstract(参考訳): バックプロパゲーションを備えたディープ残留ニューラルネットワーク(ResNets)のトレーニングは、ネットワークの深さに関して線形に増加するメモリコストを有する。
この問題を回避する簡単な方法は、可逆的なアーキテクチャを使用することです。
本稿では,運動量項を付加することで,resnetのフォワードルールを変更することを提案する。
その結果得られるネットワーク、運動量残差ニューラルネットワーク(momentumnets)は可逆である。
従来の反転型アーキテクチャとは異なり、既存のResNetブロックのドロップイン代替として使用できる。
そこで本研究では,MomentumNetsを二階常微分方程式(ODE)と解釈し,運動量を加えることでMomentumNetsの表現能力が向上することを示す。
解析の結果,ResNetではできないが,MomentumNetsは乗算係数までの線形写像を学習できることがわかった。
一定の点への収束が必要な設定を最適化する学習において、既存の可逆的アーキテクチャが失敗しながら、我々の手法が成功することを理論的かつ実証的に示す。
CIFARとImageNetで、MomentumNetsはResNetsと同じ精度であり、メモリフットプリントははるかに小さく、事前トレーニングされたMomentumNetsが微調整モデルに期待できることを示す。
関連論文リスト
- Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。
Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。
Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文 参考訳(メタデータ) (2024-01-08T18:59:31Z) - Deep Learning without Shortcuts: Shaping the Kernel with Tailored
Rectifiers [83.74380713308605]
我々は、ReLUの変種であるLeaky ReLUsと完全に互換性のある新しいタイプの変換を開発する。
実験では,ResNetsと競合する深層バニラネットワークによる検証精度を考慮し,計算コストを考慮しない手法を提案する。
論文 参考訳(メタデータ) (2022-03-15T17:49:08Z) - Singular Value Perturbation and Deep Network Optimization [29.204852309828006]
我々は,行列摂動に関する新たな理論的結果を開発し,アーキテクチャが深層ネットワークの性能に与える影響について光を当てる。
特に,ディープラーニング実践者が長年経験してきたことを説明する。深層アーキテクチャのパラメータは,他よりも容易に最適化できる。
摂動結果の直接的な応用は、ResNetがConvNetよりも簡単に最適化できる理由を解析的に説明します。
論文 参考訳(メタデータ) (2022-03-07T02:09:39Z) - Momentum Capsule Networks [0.8594140167290097]
我々はMoCapsNet(Momentum Capsule Network)と呼ばれる新しいネットワークアーキテクチャを提案する。
MoCapsNetは、残留するビルディングブロックを適用するネットワークの一種であるMomentum ResNetsにインスパイアされている。
我々は,MNIST,SVHN,CIFAR-10のベースラインカプセルネットワークの精度をはるかに低めながら,MoCapsNetが精度を上回っていることを示す。
論文 参考訳(メタデータ) (2022-01-26T17:53:18Z) - Hidden-Fold Networks: Random Recurrent Residuals Using Sparse Supermasks [1.0814638303152528]
ディープニューラルネットワーク(DNN)は過度にパラメータ化されているため、最近の研究で、高い精度でサブネットワークを含むことが判明した。
本稿では,これらの研究の行を高度に圧縮されながら正確なモデルにブレンドすることを提案する:Hedden-Fold Networks (HFNs)。
CIFAR100のResNet50と同等の性能を実現し、メモリは38.5倍、ImageNetのResNet34は26.8倍小さい。
論文 参考訳(メタデータ) (2021-11-24T08:24:31Z) - Edge Rewiring Goes Neural: Boosting Network Resilience via Policy
Gradient [62.660451283548724]
ResiNetは、さまざまな災害や攻撃に対する回復力のあるネットワークトポロジを発見するための強化学習フレームワークである。
ResiNetは複数のグラフに対してほぼ最適のレジリエンス向上を実現し,ユーティリティのバランスを保ちながら,既存のアプローチに比べて大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2021-10-18T06:14:28Z) - m-RevNet: Deep Reversible Neural Networks with Momentum [25.609808975649624]
本稿では,m-RevNetと呼ばれる可逆ニューラルネットワークを提案する。
ある種の学習シナリオでは、標準的なResNetが失敗しながらm-RevNetが成功することを分析的に実証的に明らかにします。
論文 参考訳(メタデータ) (2021-08-12T17:14:32Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Kernel-Based Smoothness Analysis of Residual Networks [85.20737467304994]
ResNets(Residual Networks)は、これらの強力なモダンアーキテクチャの中でも際立っている。
本稿では,2つのモデル,すなわちResNetsが勾配よりもスムーズな傾向を示す。
論文 参考訳(メタデータ) (2020-09-21T16:32:04Z) - Do ideas have shape? Idea registration as the continuous limit of
artificial neural networks [0.609170287691728]
本稿では,ResNetsが無限深度限界において,画像登録変分アルゴリズムの一般化に収束することを示す。
本稿では、ハミルトン力学駆動流れに対するトレーニングされた重みとバイアスを持つResNetsの収束の最初の厳密な証明を示す。
論文 参考訳(メタデータ) (2020-08-10T06:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。