論文の概要: WAVE: Weight Templates for Adaptive Initialization of Variable-sized Models
- arxiv url: http://arxiv.org/abs/2406.17503v3
- Date: Sat, 15 Mar 2025 17:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:04.364532
- Title: WAVE: Weight Templates for Adaptive Initialization of Variable-sized Models
- Title(参考訳): WAVE:可変サイズのモデルの適応初期化のためのウェイトテンプレート
- Authors: Fu Feng, Yucheng Xie, Jing Wang, Xin Geng,
- Abstract要約: WAVEは変数サイズのモデルを初期化するための新しいアプローチである。
WAVEでは、サイズ固有のウェイトスケーラとともに、共有サイズに依存しないウェイトテンプレートを採用している。
WAVEは様々な深さと幅のモデルの初期化において最先端の性能を達成する。
- 参考スコア(独自算出の注目度): 37.97945436202779
- License:
- Abstract: The growing complexity of model parameters underscores the significance of pre-trained models. However, deployment constraints often necessitate models of varying sizes, exposing limitations in the conventional pre-training and fine-tuning paradigm, particularly when target model sizes are incompatible with pre-trained ones. To address this challenge, we propose WAVE, a novel approach that reformulates variable-sized model initialization from a multi-task perspective, where initializing each model size is treated as a distinct task. WAVE employs shared, size-agnostic weight templates alongside size-specific weight scalers to achieve consistent initialization across various model sizes. These weight templates, constructed within the Learngene framework, integrate knowledge from pre-trained models through a distillation process constrained by Kronecker-based rules. Target models are then initialized by concatenating and weighting these templates, with adaptive connection rules established by lightweight weight scalers, whose parameters are learned from minimal training data. Extensive experiments demonstrate the efficiency of WAVE, achieving state-of-the-art performance in initializing models of various depth and width. The knowledge encapsulated in weight templates is also task-agnostic, allowing for seamless transfer across diverse downstream datasets. Code will be made available at https://github.com/fu-feng/WAVE.
- Abstract(参考訳): モデルパラメータの複雑さの増大は、事前訓練されたモデルの重要性を浮き彫りにする。
しかし、配置制約はしばしば様々なサイズのモデルを必要とし、特にターゲットモデルのサイズが事前訓練されたモデルと互換性がない場合、従来の事前訓練および微調整のパラダイムの制約を明らかにする。
この課題に対処するために,変数サイズのモデル初期化をマルチタスクの観点から再構成する新しい手法WAVEを提案し,各モデルサイズを個別のタスクとして扱う。
WAVEは、様々なモデルサイズで一貫した初期化を実現するために、サイズに依存しない共有の重みテンプレートと、サイズ固有の重みスケーラを使用している。
これらの重みテンプレートはLeargenフレームワーク内で構築され、Kroneckerベースのルールで制約された蒸留プロセスを通じて事前訓練されたモデルからの知識を統合する。
ターゲットモデルは、これらのテンプレートを連結し、重み付けすることで初期化され、軽量なウェイトスケーラによって確立された適応接続ルールにより、最小限のトレーニングデータからパラメータが学習される。
広汎な実験はWAVEの効率を実証し、様々な深さと幅のモデルの初期化において最先端の性能を達成する。
ウェイトテンプレートにカプセル化された知識はタスクに依存しないため、さまざまなダウンストリームデータセットをシームレスに転送することができる。
コードはhttps://github.com/fu-feng/WAVE.comで公開される。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Model Stock: All we need is just a few fine-tuned models [34.449901046895185]
本稿では,大規模な事前学習モデルに対する効率的な微調整手法を提案し,強力な分布内分散(ID)と分布外分散(OOD)性能を提供する。
最終的な重量を達成するために、はるかに少ないモデルを採用するが、精度は優れている。
事前学習型CLIPアーキテクチャに基づく微調整モデルを用いたモデルストックの有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T15:57:20Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。
アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。
デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文 参考訳(メタデータ) (2020-01-20T15:15:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。