論文の概要: Make Deep Networks Shallow Again
- arxiv url: http://arxiv.org/abs/2309.08414v1
- Date: Fri, 15 Sep 2023 14:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 14:33:08.822418
- Title: Make Deep Networks Shallow Again
- Title(参考訳): ディープネットワークを再び浅める
- Authors: Bernhard Bermeitinger, Tomas Hrycej, Siegfried Handschuh
- Abstract要約: 余剰接続の概念によってブレークスルーが達成されている。
残差接続層のスタックはテイラー展開に類似した項の拡張として表すことができる。
言い換えれば、シーケンシャルなディープアーキテクチャは、平行な浅層アーキテクチャに置き換えられる。
- 参考スコア(独自算出の注目度): 6.647569337929869
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep neural networks have a good success record and are thus viewed as the
best architecture choice for complex applications. Their main shortcoming has
been, for a long time, the vanishing gradient which prevented the numerical
optimization algorithms from acceptable convergence. A breakthrough has been
achieved by the concept of residual connections -- an identity mapping parallel
to a conventional layer. This concept is applicable to stacks of layers of the
same dimension and substantially alleviates the vanishing gradient problem. A
stack of residual connection layers can be expressed as an expansion of terms
similar to the Taylor expansion. This expansion suggests the possibility of
truncating the higher-order terms and receiving an architecture consisting of a
single broad layer composed of all initially stacked layers in parallel. In
other words, a sequential deep architecture is substituted by a parallel
shallow one. Prompted by this theory, we investigated the performance
capabilities of the parallel architecture in comparison to the sequential one.
The computer vision datasets MNIST and CIFAR10 were used to train both
architectures for a total of 6912 combinations of varying numbers of
convolutional layers, numbers of filters, kernel sizes, and other meta
parameters. Our findings demonstrate a surprising equivalence between the deep
(sequential) and shallow (parallel) architectures. Both layouts produced
similar results in terms of training and validation set loss. This discovery
implies that a wide, shallow architecture can potentially replace a deep
network without sacrificing performance. Such substitution has the potential to
simplify network architectures, improve optimization efficiency, and accelerate
the training process.
- Abstract(参考訳): ディープニューラルネットワークは優れた成功記録を持ち、複雑なアプリケーションにとって最適なアーキテクチャ選択と見なされている。
彼らの主な欠点は、長い間、数値最適化アルゴリズムが許容される収束を妨げていた勾配の消失であった。
従来のレイヤと平行なアイデンティティマッピングである残差接続の概念によって、ブレークスルーが達成されている。
この概念は同一次元の層のスタックに適用でき、消滅する勾配問題を大幅に緩和する。
残差接続層のスタックはテイラー展開に類似した項の拡張として表すことができる。
この拡張は、高階の項を切断し、最初に積み重ねられた全ての層からなる単一の広層からなるアーキテクチャを受け取る可能性を示唆している。
言い換えれば、シーケンシャルなディープアーキテクチャは、平行な浅層アーキテクチャに置き換えられる。
この理論を駆使して並列アーキテクチャの性能性能を逐次アーキテクチャと比較した。
コンピュータビジョンデータセット MNIST と CIFAR10 は、畳み込み層の数、フィルタの数、カーネルサイズ、その他のメタパラメータの合計6912の組み合わせで、両方のアーキテクチャをトレーニングするために使用された。
その結果,深層(系列)と浅層(並列)のアーキテクチャに驚くべき等価性が示された。
どちらのレイアウトも、トレーニングと検証セットの損失という観点で、同様の結果を生み出した。
この発見は、広範囲で浅いアーキテクチャがパフォーマンスを犠牲にすることなくディープネットワークを置き換える可能性を示唆している。
このような置換は、ネットワークアーキテクチャを単純化し、最適化効率を改善し、トレーニングプロセスを加速する可能性がある。
関連論文リスト
- Automatic Gradient Descent: Deep Learning without Hyperparameters [35.350274248478804]
ディープニューラルネットワークのアーキテクチャは、レイヤ数、各レイヤの幅、一般的なネットワークトポロジの観点から明確に定義される。
グラデーション・アイデアは、神経アーキテクチャの非勾配構造を考慮するために、ブレグマンの発散を変換することである。
論文 参考訳(メタデータ) (2023-04-11T12:45:52Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - Pruning-as-Search: Efficient Neural Architecture Search via Channel
Pruning and Structural Reparameterization [50.50023451369742]
プルーニング・アズ・サーチ(Pruning-as-Search、PaS)は、必要なサブネットワークを自動的に効率的に検索するエンドツーエンドのプルーニング手法である。
提案したアーキテクチャは,ImageNet-1000分類タスクにおいて,1.0%$ Top-1精度で先行技術より優れていた。
論文 参考訳(メタデータ) (2022-06-02T17:58:54Z) - Unified Field Theory for Deep and Recurrent Neural Networks [56.735884560668985]
本稿では,再帰的ネットワークと深層ネットワークの両方に対する平均場理論の統一的,体系的な導出について述べる。
平均場理論への収束は、ディープネットワークよりもリカレントネットワークの方が典型的に遅い。
提案手法はガウス過程が1/n$の体系的展開の最下位次数であることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:06:11Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Differentiable Architecture Pruning for Transfer Learning [6.935731409563879]
本研究では,与えられた大規模モデルからサブアーキテクチャを抽出するための勾配に基づくアプローチを提案する。
我々のアーキテクチャ・プルーニング・スキームは、異なるタスクを解くために再訓練を成功させることができるトランスファー可能な新しい構造を生成する。
理論的収束保証を提供し、実データ上で提案した伝達学習戦略を検証する。
論文 参考訳(メタデータ) (2021-07-07T17:44:59Z) - RAN-GNNs: breaking the capacity limits of graph neural networks [43.66682619000099]
グラフニューラルネットワークは、グラフ上で定義されたデータの学習と分析に対処する問題の中心となっている。
最近の研究では、複数の近隣サイズを同時に考慮し、適応的にそれらを調整する必要があるためです。
ランダムに配線されたアーキテクチャを用いることで、ネットワークの容量を増大させ、よりリッチな表現を得ることができることを示す。
論文 参考訳(メタデータ) (2021-03-29T12:34:36Z) - Reframing Neural Networks: Deep Structure in Overcomplete
Representations [41.84502123663809]
本稿では,構造化過剰フレームを用いた表現学習のための統一フレームワークであるdeep frame approximationを提案する。
表現一意性と安定性に関連付けられたデータ非依存的なコヒーレンス尺度であるdeep frame potentialとの構造的差異を定量化する。
この超完全表現の確立された理論への接続は、原理化されたディープネットワークアーキテクチャ設計の新たな方向性を示唆している。
論文 参考訳(メタデータ) (2021-03-10T01:15:14Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Understanding Deep Architectures with Reasoning Layer [60.90906477693774]
本研究では,アルゴリズムの収束,安定性,感度といった特性が,エンドツーエンドモデルの近似と一般化能力と密接に関連していることを示す。
私たちの理論は、深いアーキテクチャを推論層で設計するための有用なガイドラインを提供することができます。
論文 参考訳(メタデータ) (2020-06-24T00:26:35Z) - Stage-Wise Neural Architecture Search [65.03109178056937]
ResNetやNASNetのような現代の畳み込みネットワークは、多くのコンピュータビジョンアプリケーションで最先端の結果を得た。
これらのネットワークは、同じ解像度で表現を操作するレイヤのセットであるステージで構成されている。
各ステージにおけるレイヤー数の増加はネットワークの予測能力を向上させることが示されている。
しかし、結果として得られるアーキテクチャは、浮動小数点演算、メモリ要求、推論時間の観点から計算的に高価になる。
論文 参考訳(メタデータ) (2020-04-23T14:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。