論文の概要: Learning to Compose SuperWeights for Neural Parameter Allocation Search
- arxiv url: http://arxiv.org/abs/2312.01274v1
- Date: Sun, 3 Dec 2023 04:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:20:24.923343
- Title: Learning to Compose SuperWeights for Neural Parameter Allocation Search
- Title(参考訳): ニューラルパラメータ配置探索のための超重み合成学習
- Authors: Piotr Teterwak, Soren Nelson, Nikoli Dryden, Dina Bashkirova, Kate
Saenko, Bryan A. Plummer
- Abstract要約: 提案手法は,同じ重み集合を用いて多くのネットワークに対してパラメータを生成することができることを示す。
これにより、効率的なアンサンブルや、いつでも予測できるようなタスクをサポートできます。
- 参考スコア(独自算出の注目度): 61.078949532440724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural parameter allocation search (NPAS) automates parameter sharing by
obtaining weights for a network given an arbitrary, fixed parameter budget.
Prior work has two major drawbacks we aim to address. First, there is a
disconnect in the sharing pattern between the search and training steps, where
weights are warped for layers of different sizes during the search to measure
similarity, but not during training, resulting in reduced performance. To
address this, we generate layer weights by learning to compose sets of
SuperWeights, which represent a group of trainable parameters. These
SuperWeights are created to be large enough so they can be used to represent
any layer in the network, but small enough that they are computationally
efficient. The second drawback we address is the method of measuring similarity
between shared parameters. Whereas prior work compared the weights themselves,
we argue this does not take into account the amount of conflict between the
shared weights. Instead, we use gradient information to identify layers with
shared weights that wish to diverge from each other. We demonstrate that our
SuperWeight Networks consistently boost performance over the state-of-the-art
on the ImageNet and CIFAR datasets in the NPAS setting. We further show that
our approach can generate parameters for many network architectures using the
same set of weights. This enables us to support tasks like efficient ensembling
and anytime prediction, outperforming fully-parameterized ensembles with 17%
fewer parameters.
- Abstract(参考訳): パラメータ割り当て探索(NPAS)は、任意のパラメータ予算が与えられたネットワークの重みを求めることにより、パラメータ共有を自動化する。
以前の作業には、2つの大きな欠点があります。
まず、検索とトレーニングステップの共有パターンが切り離され、検索中に異なるサイズの層に重みが引き起こされ、類似度が測定されるが、トレーニング中には測定されないため、パフォーマンスが低下する。
これを解決するために、トレーニング可能なパラメータのグループを表すSuperWeightsの集合を構成することを学ぶことで層重みを生成する。
これらのスーパーウェイトはネットワーク内の任意の層を表現するのに十分な大きさで作成されるが、計算効率は十分小さい。
2つめの欠点は、共有パラメータ間の類似度を測定する方法です。
先行研究が重み付け自体を比較したのに対して、これは共有重みの衝突の量を考慮していないと論じている。
代わりに、勾配情報を使って、互いにばらつきたいと願う共有重みを持つレイヤを識別します。
我々のSuperWeight NetworksはNPAS設定のImageNetおよびCIFARデータセット上での最先端の性能を継続的に向上することを示した。
さらに,同じ重みの組を用いて,多数のネットワークアーキテクチャのパラメータを生成できることを示した。
これにより、効率的なアンサンブルや任意の時間予測といったタスクをサポートし、17%のパラメータで完全にパラメータ化されたアンサンブルより優れています。
関連論文リスト
- Neural Metamorphosis [72.88137795439407]
本稿では,ニューラル・メタモルファス(NeuMeta)と呼ばれる,自己変形可能なニューラルネットワークの構築を目的とした新たな学習パラダイムを提案する。
NeuMetaはニューラルネットワークの連続重み多様体を直接学習する。
75%の圧縮速度でもフルサイズの性能を維持する。
論文 参考訳(メタデータ) (2024-10-10T14:49:58Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters [19.358670728803336]
ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
このナイーブなアプローチは、成長するプロセスに多くのノイズをもたらすため、実際には不足しています。
論文 参考訳(メタデータ) (2023-11-07T11:37:08Z) - Weight Compander: A Simple Weight Reparameterization for Regularization [5.744133015573047]
我々は、ディープニューラルネットワークの一般化を改善するための新しい効果的な方法であるウェイトコンパンダを導入する。
標準正規化法に加えて重みコンパンダを用いることで,ニューラルネットワークの性能が向上することを示す。
論文 参考訳(メタデータ) (2023-06-29T14:52:04Z) - DeepCuts: Single-Shot Interpretability based Pruning for BERT [0.0]
我々のスコアリング関数は、より関連するタスクベースのスコアをネットワークパラメータに割り当てることができることを示す。
また、プルーニングマスクを解析した結果、標準的な測定値から得られたマスクとは大きく異なることがわかった。
論文 参考訳(メタデータ) (2022-12-27T07:21:41Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Generalizing Few-Shot NAS with Gradient Matching [165.5690495295074]
One-Shotメソッドは、1つのスーパーネットをトレーニングし、ウェイトシェアリングを通じて検索空間内の全てのアーキテクチャのパフォーマンスを近似する。
Few-Shot NASは、One-Shotスーパーネットを複数のサブスーパーネットに分割することで、ウェイトシェアリングのレベルを下げる。
Few-Shotよりも優れており、派生したアーキテクチャの精度という点では、従来の同等の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2022-03-29T03:06:16Z) - Hyperparameter Ensembles for Robustness and Uncertainty Quantification [32.56745402836596]
ディープアンサンブルとして知られる、異なるランダム初期化からトレーニングされたニューラルネットワーク重量に対するアンサンブルは、最先端の精度とキャリブレーションを達成する。
最近導入されたバッチアンサンブルは、よりパラメータ効率の良いドロップイン置換を提供する。
本稿では,重み以上のアンサンブルを設計し,両方の設定におけるアートの状態を改善するために,ハイパーパラメータを超越したアンサンブルを設計する。
論文 参考訳(メタデータ) (2020-06-24T09:14:31Z) - How to Train Your Super-Net: An Analysis of Training Heuristics in
Weight-Sharing NAS [64.50415611717057]
我々は,スーパーネットトレーニングにおける一般的なベースラインが,スーパーネットとスタンドアローンのパフォーマンスの相関に負の影響を及ぼすことを示した。
私たちのコードと実験は、将来の作業が構築できる、強く再現可能なベースラインを設定しました。
論文 参考訳(メタデータ) (2020-03-09T17:34:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。