論文の概要: Deeply Shared Filter Bases for Parameter-Efficient Convolutional Neural
Networks
- arxiv url: http://arxiv.org/abs/2006.05066v4
- Date: Sun, 21 Nov 2021 09:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 14:47:07.845045
- Title: Deeply Shared Filter Bases for Parameter-Efficient Convolutional Neural
Networks
- Title(参考訳): パラメータ効率の良い畳み込みニューラルネットワークのためのディープシェアフィルタベース
- Authors: Woochul Kang, Daeyeon Kim
- Abstract要約: 現代の畳み込みニューラルネットワーク(CNN)は、大きな同一の畳み込みブロックを持つ。
本稿では,トレーニング中の勾配問題を効果的に回避しつつ,フィルタベースを分離して学習する方法を示す。
画像分類とオブジェクト検出の実験結果から,従来のパラメータ共有手法と異なり,パラメータを節約するために性能を交換しないことがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern convolutional neural networks (CNNs) have massive identical
convolution blocks, and, hence, recursive sharing of parameters across these
blocks has been proposed to reduce the amount of parameters. However, naive
sharing of parameters poses many challenges such as limited representational
power and the vanishing/exploding gradients problem of recursively shared
parameters. In this paper, we present a recursive convolution block design and
training method, in which a recursively shareable part, or a filter basis, is
separated and learned while effectively avoiding the vanishing/exploding
gradients problem during training. We show that the unwieldy
vanishing/exploding gradients problem can be controlled by enforcing the
elements of the filter basis orthonormal, and empirically demonstrate that the
proposed orthogonality regularization improves the flow of gradients during
training. Experimental results on image classification and object detection
show that our approach, unlike previous parameter-sharing approaches, does not
trade performance to save parameters and consistently outperforms
overparameterized counterpart networks. This superior performance demonstrates
that the proposed recursive convolution block design and the orthogonality
regularization not only prevent performance degradation, but also consistently
improve the representation capability while a significant amount of parameters
are recursively shared.
- Abstract(参考訳): 現代の畳み込みニューラルネットワーク(CNN)は、同一の畳み込みブロックを持つため、これらのブロック間でのパラメータの再帰的共有は、パラメータの量を減らすために提案されている。
しかしながら、パラメータのナイーブな共有は、制限された表現力や再帰的共有パラメータの消滅/爆発勾配問題など多くの課題をもたらす。
本稿では,再帰的に共有可能な部分,あるいはフィルタベースを分離して学習し,学習中に消失・爆発する勾配問題を効果的に回避する再帰的畳み込みブロック設計・訓練手法を提案する。
フィルタ基底の要素を正則に強制することにより, 勾配問題を制御できることを示し, 提案した直交正規化がトレーニング中の勾配の流れを改善することを実証的に示す。
画像分類とオブジェクト検出実験の結果,従来のパラメータ共有手法と異なり,性能をトレードオフしてパラメータを保存せず,過パラメータ化ネットワークを一貫して上回っていることがわかった。
この優れた性能は、提案する再帰的畳み込みブロック設計と直交性正規化が性能低下を防ぐだけでなく、かなりの量のパラメータを再帰的に共有しながら一貫して表現能力を向上させることを示している。
関連論文リスト
- Recovery Guarantees of Unsupervised Neural Networks for Inverse Problems
trained with Gradient Descent [0.6522338519818377]
一般化損失関数の収束と回復の保証は、勾配流を通したトレーニングでは真であることを示す。
また、この離散化は2層DIPネットワークの過パラメータ化に一定でしか影響しないことを示す。
論文 参考訳(メタデータ) (2024-03-08T15:45:13Z) - Robust Stochastically-Descending Unrolled Networks [85.6993263983062]
Deep Unrolling(ディープ・アンローリング)は、トレーニング可能なニューラルネットワークの層に切り捨てられた反復アルゴリズムをアンロールする、新たな学習最適化手法である。
アンロールネットワークの収束保証と一般化性は、いまだにオープンな理論上の問題であることを示す。
提案した制約の下で訓練されたアンロールアーキテクチャを2つの異なるアプリケーションで数値的に評価する。
論文 参考訳(メタデータ) (2023-12-25T18:51:23Z) - Unnatural Algorithms in Machine Learning [0.0]
この特性を持つ最適化アルゴリズムは、自然勾配降下の離散近似とみなすことができる。
本稿では、この自然性をより一般的に導入する簡単な方法を紹介し、多くの一般的な機械学習トレーニングアルゴリズムについて検討する。
論文 参考訳(メタデータ) (2023-12-07T22:43:37Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Nonparametric Classification on Low Dimensional Manifolds using
Overparameterized Convolutional Residual Networks [82.03459331544737]
非パラメトリック分類の観点から重量減衰を訓練したConvResNeXtsの性能について検討した。
我々の分析は、ConvResNeXtsにおいて無限に多くのビルディングブロックを許容し、重み減衰がこれらのブロックに空間性を暗黙的に強制することを示す。
論文 参考訳(メタデータ) (2023-07-04T11:08:03Z) - Contrastive inverse regression for dimension reduction [0.0]
コントラッシブ・リバース・レグレッション (CIR) と呼ばれる, コントラッシブ・セッティングに特化して設計されたディメンション・リダクション法を提案する。
CIRは、非標準損失関数を持つスティーフェル多様体上で定義される最適化問題を導入する。
勾配勾配勾配に基づくアルゴリズムを用いて,CIRの局所最適収束を証明し,高次元データに対する競合手法よりも優れた性能を実証的に示す。
論文 参考訳(メタデータ) (2023-05-20T21:44:11Z) - Hybrid ISTA: Unfolding ISTA With Convergence Guarantees Using Free-Form
Deep Neural Networks [50.193061099112626]
学習可能なパラメータを持つディープニューラルネットワーク(DNN)として反復アルゴリズムを展開させることで、線形逆問題を解決することを約束している。
既存のISTAベースのアンフォールドアルゴリズムは、収束を保証するために部分重結合構造で繰り返し更新するネットワークアーキテクチャを制限する。
本論文は,ISTAに基づく非折り畳みアルゴリズムにおける自由形式DNNを実現するための収束証明可能なフレームワークを初めて提供するものである。
論文 参考訳(メタデータ) (2022-04-25T13:17:57Z) - Boosting Pruned Networks with Linear Over-parameterization [8.796518772724955]
構造化プルーニングは、高速な推論のためのチャネル(フィルタ)を減らし、実行時にフットプリントを低くすることで、ニューラルネットワークを圧縮する。
プルーニング後の精度を回復するため、細調整は通常、プルーニングネットワークに適用される。
そこで我々は,まず,細調整パラメータの数を増やすために,刈り込みネットワーク内のコンパクト層を線形に過剰にパラメータ化する手法を提案する。
論文 参考訳(メタデータ) (2022-04-25T05:30:26Z) - Backpropagation-Free Learning Method for Correlated Fuzzy Neural
Networks [2.1320960069210475]
本稿では,所望の前提部品の出力を推定し,段階的に学習する手法を提案する。
前提部品のパラメータを学習するために出力エラーをバックプロパゲートする必要はない。
実世界の時系列予測と回帰問題に適用できる。
論文 参考訳(メタデータ) (2020-11-25T20:56:05Z) - Beyond Dropout: Feature Map Distortion to Regularize Deep Neural
Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。
上記の問題に対処するための特徴歪み法(Disout)を提案する。
より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文 参考訳(メタデータ) (2020-02-23T13:59:13Z) - Supervised Learning for Non-Sequential Data: A Canonical Polyadic
Decomposition Approach [85.12934750565971]
特徴相互作用の効率的なモデリングは、非順序的タスクに対する教師あり学習の基盤となる。
この問題を緩和するため、モデルパラメータをテンソルとして暗黙的に表現することが提案されている。
表現性を向上するため,任意の高次元特徴ベクトルに特徴写像を適用できるようにフレームワークを一般化する。
論文 参考訳(メタデータ) (2020-01-27T22:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。