論文の概要: Parameter-Efficient Masking Networks
- arxiv url: http://arxiv.org/abs/2210.06699v1
- Date: Thu, 13 Oct 2022 03:39:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:51:49.077775
- Title: Parameter-Efficient Masking Networks
- Title(参考訳): パラメータ効率の良いマスキングネットワーク
- Authors: Yue Bai, Huan Wang, Xu Ma, Yitian Zhang, Zhiqiang Tao, Yun Fu
- Abstract要約: 先進的なネットワーク設計は、しばしば多数の繰り返し構造を含む(例: Transformer)。
本研究では,マスクの学習により,一意値に制限された固定ランダムウェイトの代表的ポテンシャルについて検討する。
これはモデル圧縮のための新しいパラダイムをもたらし、モデルサイズを減少させます。
- 参考スコア(独自算出の注目度): 61.43995077575439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A deeper network structure generally handles more complicated non-linearity
and performs more competitively. Nowadays, advanced network designs often
contain a large number of repetitive structures (e.g., Transformer). They
empower the network capacity to a new level but also increase the model size
inevitably, which is unfriendly to either model restoring or transferring. In
this study, we are the first to investigate the representative potential of
fixed random weights with limited unique values by learning diverse masks and
introduce the Parameter-Efficient Masking Networks (PEMN). It also naturally
leads to a new paradigm for model compression to diminish the model size.
Concretely, motivated by the repetitive structures in modern neural networks,
we utilize one random initialized layer, accompanied with different masks, to
convey different feature mappings and represent repetitive network modules.
Therefore, the model can be expressed as \textit{one-layer} with a bunch of
masks, which significantly reduce the model storage cost. Furthermore, we
enhance our strategy by learning masks for a model filled by padding a given
random weights vector. In this way, our method can further lower the space
complexity, especially for models without many repetitive architectures. We
validate the potential of PEMN learning masks on random weights with limited
unique values and test its effectiveness for a new compression paradigm based
on different network architectures. Code is available at
https://github.com/yueb17/PEMN
- Abstract(参考訳): より深いネットワーク構造は一般により複雑な非線形性を扱う。
今日では、高度なネットワーク設計は、多くの繰り返し構造(例えばトランスフォーマー)を含んでいることが多い。
ネットワークのキャパシティを新たなレベルに引き上げると同時に,モデルサイズを必然的に増加させます。
本研究では,多彩なマスクを学習することで,固定的ランダムウェイトの代表的ポテンシャルについて検討し,パラメータ効率のよいマスキングネットワーク(PEMN)を導入する。
また、モデルサイズを減らすためにモデル圧縮の新しいパラダイムも自然に導かれる。
具体的には、現代のニューラルネットワークにおける繰り返し構造を動機として、1つのランダム初期化層に異なるマスクを伴い、異なる特徴マッピングを伝達し、繰り返しネットワークモジュールを表現する。
したがって、モデルはマスクの束で \textit{one-layer} として表現することができ、モデル記憶コストを大幅に削減できる。
さらに,任意のランダム重みベクトルをパディングしたモデルに対するマスクの学習により,我々の戦略を強化する。
このようにして、反復的アーキテクチャを多く含まないモデルでは、空間の複雑さをさらに低減することができる。
異なるネットワークアーキテクチャに基づく新しい圧縮パラダイムにおいて,PEMN学習マスクのランダムな重み付けの有効性を検証し,その有効性を検証した。
コードはhttps://github.com/yueb17/PEMNで入手できる。
関連論文リスト
- Randomly Initialized Subnetworks with Iterative Weight Recycling [0.0]
Multi-Prize Lottery Ticket仮説は、ランダムなニューラルネットワークには、同じアーキテクチャの完全に訓練されたモデルに匹敵する精度を達成する複数の作業が含まれていることを示唆している。
本稿では,ストレージコストやスケーリングを伴わずに高精度な処理を行う2つの最先端アルゴリズムの修正を提案する。
論文 参考訳(メタデータ) (2023-03-28T13:12:00Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Training Your Sparse Neural Network Better with Any Mask [106.134361318518]
高品質で独立したトレーニング可能なスパースマスクを作成するために、大規模なニューラルネットワークをプルーニングすることが望ましい。
本稿では、デフォルトの高密度ネットワークトレーニングプロトコルから逸脱するためにスパーストレーニングテクニックをカスタマイズできる別の機会を示す。
我々の新しいスパーストレーニングレシピは、スクラッチから様々なスパースマスクでトレーニングを改善するために一般的に適用されます。
論文 参考訳(メタデータ) (2022-06-26T00:37:33Z) - PRANC: Pseudo RAndom Networks for Compacting deep models [22.793523211040682]
PRANCはディープモデルの大幅なコンパクト化を可能にする。
本研究では,PRANCを用いて画像分類モデルを構築し,関連する暗黙的ニューラルネットワークをコンパクト化することで画像の圧縮を行う。
論文 参考訳(メタデータ) (2022-06-16T22:03:35Z) - Automatic Sparse Connectivity Learning for Neural Networks [4.875787559251317]
十分に設計されたスパースニューラルネットワークは、FLOPや計算資源を大幅に削減する可能性がある。
本研究では,スパース接続性学習(Sparse Connectivity Learning)という新しい自動プルーニング手法を提案する。
SCLによって訓練された深層学習モデルは、SOTAの人間設計および自動プルーニング手法を、疎性、正確性、FLOPs削減で上回っている。
論文 参考訳(メタデータ) (2022-01-13T15:12:48Z) - Mask Attention Networks: Rethinking and Strengthen Transformer [70.95528238937861]
Transformerは、セルフアテンションネットワーク(SAN)とフィードフォワードネットワーク(FFN)の2つのサブレイヤからなる注目ベースのニューラルネットワークです。
論文 参考訳(メタデータ) (2021-03-25T04:07:44Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z) - ESPN: Extremely Sparse Pruned Networks [50.436905934791035]
簡単な反復マスク探索法により,非常に深いネットワークの最先端の圧縮を実現することができることを示す。
本アルゴリズムは,シングルショット・ネットワーク・プルーニング法とロッテ・ティケット方式のハイブリッド・アプローチを示す。
論文 参考訳(メタデータ) (2020-06-28T23:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。