論文の概要: Partial Hypernetworks for Continual Learning
- arxiv url: http://arxiv.org/abs/2306.10724v1
- Date: Mon, 19 Jun 2023 06:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 18:55:58.652160
- Title: Partial Hypernetworks for Continual Learning
- Title(参考訳): 連続学習のための部分ハイパーネットワーク
- Authors: Hamed Hemati, Vincenzo Lomonaco, Davide Bacciu, Damian Borth
- Abstract要約: 初期層を凍結しながらハイパーネットを用いたモデルの最終層に対する部分重み生成を提案する。
ノイズの多いストリームが遅延再生手法の性能に大きく影響することを示す。
我々は、ハイパーネットワークを用いた部分重み生成が、ニューラルネットワークを忘れる問題に対する有望な解決策であると結論付けている。
- 参考スコア(独自算出の注目度): 17.19787017892079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hypernetworks mitigate forgetting in continual learning (CL) by generating
task-dependent weights and penalizing weight changes at a meta-model level.
Unfortunately, generating all weights is not only computationally expensive for
larger architectures, but also, it is not well understood whether generating
all model weights is necessary. Inspired by latent replay methods in CL, we
propose partial weight generation for the final layers of a model using
hypernetworks while freezing the initial layers. With this objective, we first
answer the question of how many layers can be frozen without compromising the
final performance. Through several experiments, we empirically show that the
number of layers that can be frozen is proportional to the distributional
similarity in the CL stream. Then, to demonstrate the effectiveness of
hypernetworks, we show that noisy streams can significantly impact the
performance of latent replay methods, leading to increased forgetting when
features from noisy experiences are replayed with old samples. In contrast,
partial hypernetworks are more robust to noise by maintaining accuracy on
previous experiences. Finally, we conduct experiments on the split CIFAR-100
and TinyImagenet benchmarks and compare different versions of partial
hypernetworks to latent replay methods. We conclude that partial weight
generation using hypernetworks is a promising solution to the problem of
forgetting in neural networks. It can provide an effective balance between
computation and final test accuracy in CL streams.
- Abstract(参考訳): Hypernetworksは、タスク依存の重みを生成し、メタモデルレベルでの重み変化をペナル化することにより、継続学習(CL)における忘れを軽減します。
残念ながら、全ての重みの生成は大規模アーキテクチャでは計算コストがかかるだけでなく、すべてのモデル重みを生成する必要があるかどうかもよく理解されていない。
clにおける潜伏再生法に触発されて,初期層を凍結しながらハイパーネットワークを用いたモデル最終層の部分重み生成を提案する。
この目的により、最終性能を損なうことなく、どれくらいのレイヤを凍結できるかという質問に答える。
いくつかの実験を通じて, 凍結可能な層数がclストリームの分布的類似性に比例することを示した。
そこで, ハイパネットワークの有効性を示すため, ノイズストリームが遅延リプレイ法の性能に大きく影響し, ノイズストリームが古いサンプルで再生した場合に, 遅延リプレイ法の性能が向上することを示した。
対照的に、部分的ハイパーネットワークは、以前の経験で精度を維持することでノイズに対してより堅牢である。
最後に、分割したCIFAR-100とTinyImagenetベンチマークの実験を行い、部分的ハイパーネットの異なるバージョンと遅延再生法を比較した。
ハイパーネットワークを用いた部分的重み生成は,ニューラルネットワークにおける忘れる問題に対する有望な解決策である。
CLストリームにおける計算と最終的なテスト精度の効果的なバランスを提供することができる。
関連論文リスト
- Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - Learning to Compose SuperWeights for Neural Parameter Allocation Search [61.078949532440724]
提案手法は,同じ重み集合を用いて多くのネットワークに対してパラメータを生成することができることを示す。
これにより、効率的なアンサンブルや、いつでも予測できるようなタスクをサポートできます。
論文 参考訳(メタデータ) (2023-12-03T04:20:02Z) - MixtureGrowth: Growing Neural Networks by Recombining Learned Parameters [19.358670728803336]
ほとんどのディープニューラルネットワークは、固定されたネットワークアーキテクチャの下でトレーニングされており、アーキテクチャの変更時に再トレーニングを必要とする。
これを回避するために、時間とともにランダムな重みを加えて小さなネットワークから成長させ、徐々にターゲットネットワークサイズを達成できる。
このナイーブなアプローチは、成長するプロセスに多くのノイズをもたらすため、実際には不足しています。
論文 参考訳(メタデータ) (2023-11-07T11:37:08Z) - Gradient-based Weight Density Balancing for Robust Dynamic Sparse
Training [59.48691524227352]
スパースニューラルネットワークをゼロからトレーニングするには、接続自体と同時にコネクションを最適化する必要がある。
トレーニング中に各レイヤ間の接続は複数回最適化されるが、各レイヤの密度は通常一定である。
我々は、すべての層に重みを分散するテクニックであるGlobal Gradient-based Redistributionを提案する。
論文 参考訳(メタデータ) (2022-10-25T13:32:09Z) - Weight Fixing Networks [0.0]
ネットワーク内の一意なパラメータのエントロピーと数を最小化するために、ネットワーク全体の量子化を検討する。
そこで本研究では,4つのモデル結果の目標を実現するために,WFN(Weight Fixing Networks)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-24T19:18:02Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - WeightMom: Learning Sparse Networks using Iterative Momentum-based
pruning [0.0]
本稿では,前回の繰り返しの運動量に基づいて徐々に重みを刈り取る,重みに基づくプルーニング手法を提案する。
我々は,CIFAR-10やCIFAR-100といった画像分類データセットを用いて,AlexNet,VGG16,ResNet50などのネットワークに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-08-11T07:13:59Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - DHP: Differentiable Meta Pruning via HyperNetworks [158.69345612783198]
本稿では,ネットワークの自動プルーニングのためのハイパーネットによる識別可能なプルーニング手法を提案する。
遅延ベクトルは、バックボーンネットワーク内の畳み込み層の出力チャネルを制御し、レイヤのプルーニングのハンドルとして機能する。
画像分類、単一画像超解像、復調のための様々なネットワークで実験が行われた。
論文 参考訳(メタデータ) (2020-03-30T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。