Fugu-MT 論文翻訳(概要): WAVE: Weight Templates for Adaptive Initialization of Variable-sized Models

論文の概要: WAVE: Weight Templates for Adaptive Initialization of Variable-sized Models

arxiv url: http://arxiv.org/abs/2406.17503v3
Date: Sat, 15 Mar 2025 17:21:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 21:01:23.649066
Title: WAVE: Weight Templates for Adaptive Initialization of Variable-sized Models
Title（参考訳）: WAVE:可変サイズのモデルの適応初期化のためのウェイトテンプレート
Authors: Fu Feng, Yucheng Xie, Jing Wang, Xin Geng,
Abstract要約: WAVEは変数サイズのモデルを初期化するための新しいアプローチである。 WAVEでは、サイズ固有のウェイトスケーラとともに、共有サイズに依存しないウェイトテンプレートを採用している。 WAVEは様々な深さと幅のモデルの初期化において最先端の性能を達成する。
参考スコア（独自算出の注目度）: 37.97945436202779
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing complexity of model parameters underscores the significance of pre-trained models. However, deployment constraints often necessitate models of varying sizes, exposing limitations in the conventional pre-training and fine-tuning paradigm, particularly when target model sizes are incompatible with pre-trained ones. To address this challenge, we propose WAVE, a novel approach that reformulates variable-sized model initialization from a multi-task perspective, where initializing each model size is treated as a distinct task. WAVE employs shared, size-agnostic weight templates alongside size-specific weight scalers to achieve consistent initialization across various model sizes. These weight templates, constructed within the Learngene framework, integrate knowledge from pre-trained models through a distillation process constrained by Kronecker-based rules. Target models are then initialized by concatenating and weighting these templates, with adaptive connection rules established by lightweight weight scalers, whose parameters are learned from minimal training data. Extensive experiments demonstrate the efficiency of WAVE, achieving state-of-the-art performance in initializing models of various depth and width. The knowledge encapsulated in weight templates is also task-agnostic, allowing for seamless transfer across diverse downstream datasets. Code will be made available at https://github.com/fu-feng/WAVE.
Abstract（参考訳）: モデルパラメータの複雑さの増大は、事前訓練されたモデルの重要性を浮き彫りにする。しかし、配置制約はしばしば様々なサイズのモデルを必要とし、特にターゲットモデルのサイズが事前訓練されたモデルと互換性がない場合、従来の事前訓練および微調整のパラダイムの制約を明らかにする。この課題に対処するために,変数サイズのモデル初期化をマルチタスクの観点から再構成する新しい手法WAVEを提案し,各モデルサイズを個別のタスクとして扱う。 WAVEは、様々なモデルサイズで一貫した初期化を実現するために、サイズに依存しない共有の重みテンプレートと、サイズ固有の重みスケーラを使用している。これらの重みテンプレートはLeargenフレームワーク内で構築され、Kroneckerベースのルールで制約された蒸留プロセスを通じて事前訓練されたモデルからの知識を統合する。ターゲットモデルは、これらのテンプレートを連結し、重み付けすることで初期化され、軽量なウェイトスケーラによって確立された適応接続ルールにより、最小限のトレーニングデータからパラメータが学習される。広汎な実験はWAVEの効率を実証し、様々な深さと幅のモデルの初期化において最先端の性能を達成する。ウェイトテンプレートにカプセル化された知識はタスクに依存しないため、さまざまなダウンストリームデータセットをシームレスに転送することができる。コードはhttps://github.com/fu-feng/WAVE.comで公開される。

関連論文リスト

Model Assembly Learning with Heterogeneous Layer Weight Merging [57.8462476398611]
モデル統合のための新しいパラダイムであるモデルアセンブリ学習(MAL)を紹介する。 MALは、様々なモデルのパラメータをオープンエンドモデル動物園に統合し、ベースモデルの能力を高める。
論文参考訳（メタデータ） (2025-03-27T16:21:53Z)
FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文参考訳（メタデータ） (2024-09-28T08:57:17Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Exploring Learngene via Stage-wise Weight Sharing for Initializing Variable-sized Models [40.21274215353816]
本稿では,大規模な学習モデルから学習遺伝子と呼ばれる1つのコンパクトな部分を学習するLearngeneフレームワークを紹介する。次に、対応するステージ情報を含むこれらの学習遺伝子層を拡張して、可変深さのモデルを初期化する。 ImageNet-1Kの実験では、SWSはスクラッチからトレーニングされた多くのモデルと比較して一貫したパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-04-25T06:04:34Z)
Continuous Language Model Interpolation for Dynamic and Controllable Text Generation [7.535219325248997]
私たちは、モデルが多様な、そしてしばしば変化する、ユーザの好みに動的に適応しなければならない、困難なケースに注目します。線形重みに基づく適応手法を活用し、連続的なマルチドメイン補間子としてキャストする。重みの変化がモデル出力の予測可能かつ一貫した変化をもたらすことを示す。
論文参考訳（メタデータ） (2024-04-10T15:55:07Z)
Model Stock: All we need is just a few fine-tuned models [34.449901046895185]
本稿では,大規模な事前学習モデルに対する効率的な微調整手法を提案し,強力な分布内分散(ID)と分布外分散(OOD)性能を提供する。最終的な重量を達成するために、はるかに少ないモデルを採用するが、精度は優れている。事前学習型CLIPアーキテクチャに基づく微調整モデルを用いたモデルストックの有効性を示す。
論文参考訳（メタデータ） (2024-03-28T15:57:20Z)
Model Breadcrumbs: Scaling Multi-Task Model Merging with Sparse Masks [12.146530928616386]
目標問題に対する一般的なアプローチは、特定の目標タスクに対して、訓練済みの基礎モデルを微調整することである。この研究は、補助的なタスクのスペクトルから導かれた同じ基礎モデルの複数の微調整をマージする問題に焦点を当てる。事前学習したモデルの重み空間内でモデル適応を誘導する疎定義の重み集合からなる,新しい簡易な方法であるモデルブレッドクラブを導入する。
論文参考訳（メタデータ） (2023-12-11T19:10:55Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文参考訳（メタデータ） (2022-07-19T20:19:03Z)
Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。 Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文参考訳（メタデータ） (2022-05-30T16:55:59Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
Model Reuse with Reduced Kernel Mean Embedding Specification [70.044322798187]
現在のアプリケーションで有用なモデルを見つけるための2段階のフレームワークを提案する。アップロードフェーズでは、モデルがプールにアップロードされている場合、モデルの仕様としてカーネル平均埋め込み(RKME)を縮小する。デプロイフェーズでは、RKME仕様の値に基づいて、現在のタスクと事前訓練されたモデルの関連性を測定する。
論文参考訳（メタデータ） (2020-01-20T15:15:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。