論文の概要: Training Neural Networks with Fixed Sparse Masks
- arxiv url: http://arxiv.org/abs/2111.09839v1
- Date: Thu, 18 Nov 2021 18:06:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 16:31:28.731588
- Title: Training Neural Networks with Fixed Sparse Masks
- Title(参考訳): 固定スパースマスクを用いたニューラルネットワークのトレーニング
- Authors: Yi-Lin Sung, Varun Nair, and Colin Raffel
- Abstract要約: 最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
- 参考スコア(独自算出の注目度): 19.58969772430058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During typical gradient-based training of deep neural networks, all of the
model's parameters are updated at each iteration. Recent work has shown that it
is possible to update only a small subset of the model's parameters during
training, which can alleviate storage and communication requirements. In this
paper, we show that it is possible to induce a fixed sparse mask on the model's
parameters that selects a subset to update over many iterations. Our method
constructs the mask out of the $k$ parameters with the largest Fisher
information as a simple approximation as to which parameters are most important
for the task at hand. In experiments on parameter-efficient transfer learning
and distributed training, we show that our approach matches or exceeds the
performance of other methods for training with sparse updates while being more
efficient in terms of memory usage and communication costs. We release our code
publicly to promote further applications of our approach.
- Abstract(参考訳): ディープニューラルネットワークの典型的な勾配に基づくトレーニングでは、モデルのパラメータは各イテレーションで更新される。
最近の研究は、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることを示しており、ストレージと通信の要求を緩和することができる。
本稿では,モデルのパラメータに固定されたスパースマスクを誘導することで,多数のイテレーションで更新する部分集合を選択できることを示す。
提案手法では,最大のフィッシャー情報を持つ$k$パラメータのマスクを,目の前のタスクにとって最も重要なパラメータの近似として構成する。
パラメータ効率の高い転送学習と分散トレーニングの実験では、メモリ使用量や通信コストの面では効率が向上しつつも、スパース更新による他のトレーニング方法のパフォーマンスに匹敵する、あるいは超えていることを示す。
このアプローチのさらなる応用を促進するために、コードを公開しています。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Regularized Mask Tuning: Uncovering Hidden Knowledge in Pre-trained
Vision-Language Models [89.07925369856139]
我々は,学習可能な選択によってネットワークパラメータをマスクする,正規化マスクチューニングと呼ばれる新しいタイプのチューニング手法を設計する。
神経経路にインスパイアされた我々は、下流タスクに必要な知識は、既にトレーニング済みの重みの中に存在するが、上流のトレーニング済みの段階では隠されていると論じる。
平均2.56%のパラメータをマスキングすることで、ゼロショットのCLIPと比較して18.73%のパフォーマンス改善を実現しています。
論文 参考訳(メタデータ) (2023-07-27T17:56:05Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Scalable Weight Reparametrization for Efficient Transfer Learning [10.265713480189486]
効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
論文 参考訳(メタデータ) (2023-02-26T23:19:11Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Fine-tuning Image Transformers using Learnable Memory [14.478892724736404]
学習可能なメモリトークンを用いた視覚変換器モデルの拡張を提案する。
当社のアプローチでは,パラメータの少ないモデルで,新たなタスクに適応することが可能です。
層ごとのトークン数が少ないモデルの拡張は精度を著しく向上させることを示す。
論文 参考訳(メタデータ) (2022-03-29T05:26:20Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。