論文の概要: Re-parameterizing Your Optimizers rather than Architectures
- arxiv url: http://arxiv.org/abs/2205.15242v1
- Date: Mon, 30 May 2022 16:55:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 13:22:15.375288
- Title: Re-parameterizing Your Optimizers rather than Architectures
- Title(参考訳): アーキテクチャではなくオプティマイザの再パラメータ
- Authors: Xiaohan Ding, Honghao Chen, Xiangyu Zhang, Kaiqi Huang, Jungong Han,
Guiguang Ding
- Abstract要約: 本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
- 参考スコア(独自算出の注目度): 119.08740698936633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The well-designed structures in neural networks reflect the prior knowledge
incorporated into the models. However, though different models have various
priors, we are used to training them with model-agnostic optimizers (e.g.,
SGD). In this paper, we propose a novel paradigm of incorporating
model-specific prior knowledge into optimizers and using them to train generic
(simple) models. As an implementation, we propose a novel methodology to add
prior knowledge by modifying the gradients according to a set of model-specific
hyper-parameters, which is referred to as Gradient Re-parameterization, and the
optimizers are named RepOptimizers. For the extreme simplicity of model
structure, we focus on a VGG-style plain model and showcase that such a simple
model trained with a RepOptimizer, which is referred to as RepOpt-VGG, performs
on par with the recent well-designed models. From a practical perspective,
RepOpt-VGG is a favorable base model because of its simple structure, high
inference speed and training efficiency. Compared to Structural
Re-parameterization, which adds priors into models via constructing extra
training-time structures, RepOptimizers require no extra forward/backward
computations and solve the problem of quantization. The code and models are
publicly available at https://github.com/DingXiaoH/RepOptimizers.
- Abstract(参考訳): ニューラルネットワークのよく設計された構造は、モデルに組み込まれた以前の知識を反映している。
しかし、異なるモデルには様々な先行性があるが、モデルに依存しない最適化(SGDなど)でそれらを訓練するのに慣れている。
本稿では,モデル固有の事前知識をオプティマイザに組み込んで,汎用的な(シンプルな)モデルを訓練する,新しいパラダイムを提案する。
実装として,勾配再パラメータ化と呼ばれるモデル固有ハイパーパラメータの集合に従って勾配を変更し,最適化器を再最適化器(repoptimizers)と呼ぶ新しい手法を提案する。
モデル構造を極端にシンプルにするために、VGGスタイルのプレーンモデルに注目し、RepOpt-VGGと呼ばれるRepOptimizerで訓練されたそのような単純なモデルが、最近設計されたモデルと同等に動作することを示す。
実用の観点からは、RepOpt-VGGは単純な構造、高い推論速度、訓練効率のために好適なベースモデルである。
余分なトレーニング時間構造を構築することによってモデルに事前を付加する構造的再パラメータ化と比較して、RepOptimizersは余分なフォワード/バックワード計算を必要とせず、量子化の問題を解決する。
コードとモデルはhttps://github.com/DingXiaoH/RepOptimizers.comで公開されている。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Improving generalization in large language models by learning prefix
subspaces [5.911540700785975]
本稿では、希少なデータ構造における大規模言語モデル(LLM)の微調整に焦点を当てる("few-shot"学習環境としても知られる)。
ニューラルネットワーク部分空間に基づくLLMの一般化能力を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T12:44:09Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Exploring and Evaluating Personalized Models for Code Generation [9.25440316608194]
パーソナライズのための変換器モデルの微調整を評価する。
i) すべてのモデルパラメータをチューニングできるカスタム微調整。
コード生成のためのこれらの微調整戦略を比較し、様々なデプロイメントシナリオにおいて、それぞれの潜在的な一般化とコスト効果について議論する。
論文 参考訳(メタデータ) (2022-08-29T23:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。