論文の概要: SPIN: An Empirical Evaluation on Sharing Parameters of Isotropic
Networks
- arxiv url: http://arxiv.org/abs/2207.10237v1
- Date: Thu, 21 Jul 2022 00:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:48:54.662035
- Title: SPIN: An Empirical Evaluation on Sharing Parameters of Isotropic
Networks
- Title(参考訳): spin:等方性ネットワークの共有パラメータに関する経験的評価
- Authors: Chien-Yu Lin, Anish Prabhu, Thomas Merth, Sachin Mehta, Anurag Ranjan,
Maxwell Horton, and Mohammad Rastegari
- Abstract要約: 等方性ネットワークにおけるパラメータ共有手法に関する実験的検討を行った。
本稿では,全体効率のよいモデル群を生成するための重み共有戦略を提案する。
- 参考スコア(独自算出の注目度): 25.465917853812538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent isotropic networks, such as ConvMixer and vision transformers, have
found significant success across visual recognition tasks, matching or
outperforming non-isotropic convolutional neural networks (CNNs). Isotropic
architectures are particularly well-suited to cross-layer weight sharing, an
effective neural network compression technique. In this paper, we perform an
empirical evaluation on methods for sharing parameters in isotropic networks
(SPIN). We present a framework to formalize major weight sharing design
decisions and perform a comprehensive empirical evaluation of this design
space. Guided by our experimental results, we propose a weight sharing strategy
to generate a family of models with better overall efficiency, in terms of
FLOPs and parameters versus accuracy, compared to traditional scaling methods
alone, for example compressing ConvMixer by 1.9x while improving accuracy on
ImageNet. Finally, we perform a qualitative study to further understand the
behavior of weight sharing in isotropic architectures. The code is available at
https://github.com/apple/ml-spin.
- Abstract(参考訳): ConvMixerやビジョントランスフォーマーのような最近の等方性ネットワークは、非等方性畳み込みニューラルネットワーク(CNN)のマッチングや性能向上など、視覚認識タスク全体で大きな成功を収めている。
等方性アーキテクチャは、効果的なニューラルネットワーク圧縮技術であるクロスレイヤー重み共有に特に適している。
本稿では,等方性ネットワーク(spin)におけるパラメータの共有手法について経験的評価を行う。
本稿では,重み付け設計決定を形式化し,この設計空間を包括的に評価する枠組みを提案する。
実験結果から導かれ,従来のスケーリング手法のみと比較して,FLOPとパラメータと精度の点で,画像ネットの精度を向上しつつ,ConvMixerを1.9倍圧縮するなど,全体的な効率向上を図ったモデル群を生成するための重み共有戦略を提案する。
最後に,等方性アーキテクチャにおける重み共有の挙動をさらに理解するために質的研究を行う。
コードはhttps://github.com/apple/ml-spinで入手できる。
関連論文リスト
- Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - INSightR-Net: Interpretable Neural Network for Regression using
Similarity-based Comparisons to Prototypical Examples [2.4366811507669124]
畳み込みニューラルネットワーク(CNN)は、様々な医療画像のタスクにおいて、例外的な性能を示している。
そこで本研究では,類似度に基づく比較手法を用いて,レグレッションに対して本質的に解釈可能なCNNを提案する。
アーキテクチャに組み込まれたプロトタイプ層は、学習したプロトタイプと最もよく似た画像領域の可視化を可能にする。
最終的な予測は、類似性によって重み付けされたプロトタイプラベルの平均として直感的にモデル化される。
論文 参考訳(メタデータ) (2022-07-31T15:56:15Z) - Improving Parametric Neural Networks for High-Energy Physics (and
Beyond) [0.0]
本研究の目的は,現実世界の使用状況に照らして,パラメトリックニューラルネットワーク(pNN)ネットワークの理解を深めることである。
本稿では,新しいパラメータ化ニューラルネットワークアーキテクチャであるAffinePNNを提案する。
我々は、その不均衡バージョン(HEPMASS-IMB)に沿って、HEPMASSデータセット上で、我々のモデルを広範囲に評価する。
論文 参考訳(メタデータ) (2022-02-01T14:18:43Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Ensembles of Spiking Neural Networks [0.3007949058551534]
本稿では,最先端の結果を生み出すスパイクニューラルネットワークのアンサンブルを構築する方法について述べる。
MNIST, NMNIST, DVS Gestureデータセットの分類精度は98.71%, 100.0%, 99.09%である。
我々は、スパイキングニューラルネットワークをGLM予測器として形式化し、ターゲットドメインに適した表現を識別する。
論文 参考訳(メタデータ) (2020-10-15T17:45:18Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Understanding Generalization in Deep Learning via Tensor Methods [53.808840694241]
圧縮の観点から,ネットワークアーキテクチャと一般化可能性の関係について理解を深める。
本稿では、ニューラルネットワークの圧縮性と一般化性を強く特徴付ける、直感的で、データ依存的で、測定が容易な一連の特性を提案する。
論文 参考訳(メタデータ) (2020-01-14T22:26:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。