論文の概要: Scalable Weight Reparametrization for Efficient Transfer Learning
- arxiv url: http://arxiv.org/abs/2302.13435v1
- Date: Sun, 26 Feb 2023 23:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:08:30.409396
- Title: Scalable Weight Reparametrization for Efficient Transfer Learning
- Title(参考訳): 効率的な伝達学習のためのスケーラブルウェイト・リパラメトリゼーション
- Authors: Byeonggeun Kim, Jun-Tae Lee, Seunghan yang, Simyung Chang
- Abstract要約: 効率的な転送学習は、より大きなデータセットでトレーニングされたトレーニング済みのモデルを使用して、下流タスクのためにそれを再利用する。
以前の作業ではパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
本稿では,事前学習したモデルの再パラメータ化の場所を決定するためのポリシネットワークの学習を提案する。
- 参考スコア(独自算出の注目度): 10.265713480189486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a novel, efficient transfer learning method, called
Scalable Weight Reparametrization (SWR) that is efficient and effective for
multiple downstream tasks. Efficient transfer learning involves utilizing a
pre-trained model trained on a larger dataset and repurposing it for downstream
tasks with the aim of maximizing the reuse of the pre-trained model. However,
previous works have led to an increase in updated parameters and task-specific
modules, resulting in more computations, especially for tiny models.
Additionally, there has been no practical consideration for controlling the
number of updated parameters. To address these issues, we suggest learning a
policy network that can decide where to reparametrize the pre-trained model,
while adhering to a given constraint for the number of updated parameters. The
policy network is only used during the transfer learning process and not
afterward. As a result, our approach attains state-of-the-art performance in a
proposed multi-lingual keyword spotting and a standard benchmark,
ImageNet-to-Sketch, while requiring zero additional computations and
significantly fewer additional parameters.
- Abstract(参考訳): 本稿では,複数の下流タスクに対して効率的かつ効果的である,スケーラブル・ウェイト・リパラメトリゼーション(SWR)と呼ばれる,新しい効率的な転送学習手法を提案する。
効率的な転送学習は、より大きなデータセットでトレーニングされた事前訓練されたモデルを利用し、事前訓練されたモデルの再利用を最大化するために下流タスクに再設定する。
しかし、以前の研究によりパラメータやタスク固有のモジュールが更新され、特に小さなモデルでは計算量が増加した。
さらに、更新されたパラメータの数を制御するための実用的な検討は行われていない。
これらの問題に対処するために,事前訓練されたモデルのパラメータ化場所を決定するためのポリシネットワークを,更新されたパラメータの数に対する所定の制約に従って学習することを提案する。
ポリシーネットワークは、転送学習プロセスでのみ使用され、その後は使われない。
その結果,提案した多言語キーワードスポッティングと標準ベンチマークであるImageNet-to-Sketchでは,新たな計算が不要で,パラメータも大幅に少なくなる。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - PAC-Net: A Model Pruning Approach to Inductive Transfer Learning [16.153557870191488]
PAC-Netは、プルーニングに基づく伝達学習において、シンプルだが効果的なアプローチである。
PAC-NetはPrune、Allocate、Calibrateの3つのステップで構成されている。
様々な多種多様な帰納的伝達学習実験において,本手法は最先端の性能を高いマージンで達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T09:45:16Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Training Neural Networks with Fixed Sparse Masks [19.58969772430058]
最近の研究では、トレーニング中にモデルのパラメータの小さなサブセットだけを更新できることが示されている。
モデルのパラメータに固定されたスパースマスクを誘導し、サブセットを選択して複数のイテレーションで更新できることが示される。
論文 参考訳(メタデータ) (2021-11-18T18:06:01Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。