論文の概要: DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths
- arxiv url: http://arxiv.org/abs/2007.02010v1
- Date: Sat, 4 Jul 2020 04:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 13:00:57.763170
- Title: DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths
- Title(参考訳): dessilbi:差分包含経路による深層ネットワークの構造スパース性の検討
- Authors: Yanwei Fu, Chen Liu, Donghao Li, Xinwei Sun, Jinshan Zeng, Yuan Yao
- Abstract要約: 逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
- 参考スコア(独自算出の注目度): 45.947140164621096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over-parameterization is ubiquitous nowadays in training neural networks to
benefit both optimization in seeking global optima and generalization in
reducing prediction error. However, compressive networks are desired in many
real world applications and direct training of small networks may be trapped in
local optima. In this paper, instead of pruning or distilling
over-parameterized models to compressive ones, we propose a new approach based
on differential inclusions of inverse scale spaces. Specifically, it generates
a family of models from simple to complex ones that couples a pair of
parameters to simultaneously train over-parameterized deep models and
structural sparsity on weights of fully connected and convolutional layers.
Such a differential inclusion scheme has a simple discretization, proposed as
Deep structurally splitting Linearized Bregman Iteration (DessiLBI), whose
global convergence analysis in deep learning is established that from any
initializations, algorithmic iterations converge to a critical point of
empirical risks. Experimental evidence shows that DessiLBI achieve comparable
and even better performance than the competitive optimizers in exploring the
structural sparsity of several widely used backbones on the benchmark datasets.
Remarkably, with early stopping, DessiLBI unveils "winning tickets" in early
epochs: the effective sparse structure with comparable test accuracy to fully
trained over-parameterized models.
- Abstract(参考訳): オーバーパラメータ化は、グローバルオプティマの最適化と予測誤差の低減の一般化の両方のメリットを享受するために、ニューラルネットワークのトレーニングにおいて、今日ではユビキタスである。
しかし、多くの実世界のアプリケーションで圧縮ネットワークが望まれており、小さなネットワークの直接訓練は局所的な最適化に閉じ込められる可能性がある。
本稿では, オーバーパラメータモデルから圧縮モデルへのプルーニングや蒸留ではなく, 逆スケール空間の微分包含に基づく新しいアプローチを提案する。
具体的には、単純なものから複雑なものまでのモデルのファミリーを生成し、一対のパラメータを結合して、完全な連結層と畳み込み層の重みに過度にパラメータ化された深層モデルと構造的疎結合性を同時に訓練する。
このような微分包含スキームは単純な離散化を持ち、Deep structurely splitting Linearized Bregman Iteration (DessiLBI) として提案されている。
実験的な証拠は、DessiLBIがベンチマークデータセット上で広く使用されているバックボーンの構造空間を探索する際の、競合最適化よりも同等で優れたパフォーマンスを実現していることを示している。
驚くべきことに、早期停止によってdessilbiは、完全に訓練された過剰パラメータモデルに匹敵するテスト精度を持つ効果的なスパース構造である「勝利のチケット」を早期に発表する。
関連論文リスト
- Component-based Sketching for Deep ReLU Nets [55.404661149594375]
各種タスクのためのディープネットコンポーネントに基づくスケッチ手法を開発した。
我々はディープネットトレーニングを線形経験的リスク最小化問題に変換する。
提案したコンポーネントベーススケッチは飽和関数の近似においてほぼ最適であることを示す。
論文 参考訳(メタデータ) (2024-09-21T15:30:43Z) - Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Bayesian Federated Neural Matching that Completes Full Information [2.6566593102111473]
フェデレートラーニング(Federated Learning)は、局所的に訓練されたモデルをグローバルモデルに蒸留する機械学習パラダイムである。
そこで本研究では,各イテレーションでKulback-Leibler分散ペナルティを導入することで,この欠陥を克服する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-15T09:47:56Z) - Orthogonal Stochastic Configuration Networks with Adaptive Construction
Parameter for Data Analytics [6.940097162264939]
ランダム性により、SCNは冗長で品質の低い近似線形相関ノードを生成する可能性が高まる。
機械学習の基本原理、すなわち、パラメータが少ないモデルでは、一般化が向上する。
本稿では,ネットワーク構造低減のために,低品質な隠れノードをフィルタする直交SCN(OSCN)を提案する。
論文 参考訳(メタデータ) (2022-05-26T07:07:26Z) - Probabilistic partition of unity networks: clustering based deep
approximation [0.0]
ユニタリネットワーク(POU-Nets)の分割は、回帰とPDEの解に対する代数収束率を実現することができる。
ガウス雑音モデルを用いてPOU-Netを拡張し、最大可算損失の勾配に基づく一般化を導出できる確率的一般化を得る。
本研究では,高次元・低次元での性能を定量化するためのベンチマークを行い,高次元空間内のデータの潜在次元にのみ依存することを示す。
論文 参考訳(メタデータ) (2021-07-07T08:02:00Z) - Reframing Neural Networks: Deep Structure in Overcomplete
Representations [41.84502123663809]
本稿では,構造化過剰フレームを用いた表現学習のための統一フレームワークであるdeep frame approximationを提案する。
表現一意性と安定性に関連付けられたデータ非依存的なコヒーレンス尺度であるdeep frame potentialとの構造的差異を定量化する。
この超完全表現の確立された理論への接続は、原理化されたディープネットワークアーキテクチャ設計の新たな方向性を示唆している。
論文 参考訳(メタデータ) (2021-03-10T01:15:14Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。