論文の概要: Building Variable-sized Models via Learngene Pool
- arxiv url: http://arxiv.org/abs/2312.05743v1
- Date: Sun, 10 Dec 2023 03:46:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:03:45.304211
- Title: Building Variable-sized Models via Learngene Pool
- Title(参考訳): Learngene Poolによる可変サイズモデルの構築
- Authors: Boyu Shi, Shiyu Xia, Xu Yang, Haokun Chen, Zhiqiang Kou, Xin Geng
- Abstract要約: 近年,Stitchable Neural Networks (SN-Net) が提案されている。
SN-Netはリソース制約の少ないモデルを構築するという課題に直面している。
本稿ではこれらの課題を克服するために,Leargen Poolと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 39.99697115082106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Stitchable Neural Networks (SN-Net) is proposed to stitch some
pre-trained networks for quickly building numerous networks with different
complexity and performance trade-offs. In this way, the burdens of designing or
training the variable-sized networks, which can be used in application
scenarios with diverse resource constraints, are alleviated. However, SN-Net
still faces a few challenges. 1) Stitching from multiple independently
pre-trained anchors introduces high storage resource consumption. 2) SN-Net
faces challenges to build smaller models for low resource constraints. 3).
SN-Net uses an unlearned initialization method for stitch layers, limiting the
final performance. To overcome these challenges, motivated by the recently
proposed Learngene framework, we propose a novel method called Learngene Pool.
Briefly, Learngene distills the critical knowledge from a large pre-trained
model into a small part (termed as learngene) and then expands this small part
into a few variable-sized models. In our proposed method, we distill one
pretrained large model into multiple small models whose network blocks are used
as learngene instances to construct the learngene pool. Since only one large
model is used, we do not need to store more large models as SN-Net and after
distilling, smaller learngene instances can be created to build small models to
satisfy low resource constraints. We also insert learnable transformation
matrices between the instances to stitch them into variable-sized models to
improve the performance of these models. Exhaustive experiments have been
implemented and the results validate the effectiveness of the proposed
Learngene Pool compared with SN-Net.
- Abstract(参考訳): 近年、ステッチ可能なニューラルネットワーク(sn-net)が、いくつかの事前学習されたネットワークを縫い合わせて、複雑さとパフォーマンスのトレードオフが異なる多数のネットワークを迅速に構築するために提案されている。
このようにして、さまざまなリソース制約のあるアプリケーションシナリオで使用できる可変サイズのネットワークの設計やトレーニングの負担を軽減することができる。
しかし、SN-Netはまだいくつかの課題に直面している。
1) 独立に訓練された複数のアンカーからのスティッチは、高いストレージリソース消費をもたらす。
2) SN-Netはリソース制約の少ないモデルを構築するための課題に直面している。
3).
SN-Netは縫い目層に未学習の初期化法を使用し、最終的な性能を制限している。
最近提案されたlearnergeneフレームワークに動機づけられたこれらの課題を克服するために,learnergene poolと呼ばれる新しい手法を提案する。
簡単に言うと、learnergeneは、大きな事前学習されたモデルから重要な知識を小さな部分(learnergeneと呼ばれる)に蒸留し、その小さな部分をいくつかの可変サイズのモデルに拡張する。
提案手法では,ネットワークブロックを学習ジェネレーションインスタンスとして使用して学習ジェネレーションプールを構築する複数の小モデルに事前学習した大モデルを蒸留する。
1つの大きなモデルしか使われないので、SN-Netとしてもっと大きなモデルを格納する必要はなく、蒸留後、低いリソース制約を満たすために小さなモデルを構築するために小さな学習遺伝子インスタンスを作成できる。
また、インスタンス間で学習可能な変換行列を挿入して可変サイズのモデルに縫い付け、これらのモデルの性能を向上させる。
その結果, SN-Netと比較して, 提案したLeargen Poolの有効性が検証された。
関連論文リスト
- FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。
事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。
これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-09-28T08:57:17Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Efficient Stitchable Task Adaptation [47.94819192325723]
そこで本研究では,高度調整型モデルのパレットを効率よく作成するための新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。
具体的には、縫合物間で低ランク更新を共有するために、パラメータ効率の高いファインチューニングを第1に調整する。
簡単なが効果的なワンステージデプロイメントパイプラインを合理化し、デプロイすべき重要な縫合を見積もる。
論文 参考訳(メタデータ) (2023-11-29T04:31:35Z) - SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - One-Shot Pruning for Fast-adapting Pre-trained Models on Devices [28.696989086706186]
大規模な事前訓練モデルが下流タスクの解決に成功している。
これらのモデルを低機能デバイスにデプロイするには、モデルプルーニングのような効果的なアプローチが必要である。
そこで本研究では,類似タスクの抽出知識を活用して,事前学習したモデルからサブネットワークを抽出する,スケーラブルなワンショットプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-07-10T06:44:47Z) - Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。
SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。
ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2023-02-13T18:37:37Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - The Self-Simplifying Machine: Exploiting the Structure of Piecewise
Linear Neural Networks to Create Interpretable Models [0.0]
本稿では,分類タスクに対するPiecewise Linear Neural Networksの単純化と解釈性向上のための新しい手法を提案する。
我々の手法には、トレーニングを伴わずに、訓練された深層ネットワークを使用して、良好なパフォーマンスと単一隠れ層ネットワークを生成する方法が含まれる。
これらの手法を用いて,モデル性能の予備的研究およびウェルズ・ファーゴのホームレンディングデータセットのケーススタディを行う。
論文 参考訳(メタデータ) (2020-12-02T16:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。