論文の概要: Diffusion-based Neural Network Weights Generation
- arxiv url: http://arxiv.org/abs/2402.18153v1
- Date: Wed, 28 Feb 2024 08:34:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:44:09.968561
- Title: Diffusion-based Neural Network Weights Generation
- Title(参考訳): 拡散型ニューラルネットワーク重み生成
- Authors: Bedionita Soro, Bruno Andreis, Hayeon Lee, Song Chong, Frank Hutter,
Sung Ju Hwang
- Abstract要約: データセット条件付き事前学習重み抽出による効率よく適応的な伝達学習手法を提案する。
具体的には、ニューラルネットワークの重みを再構築できる変分オートエンコーダを備えた潜時拡散モデルを用いる。
- 参考スコア(独自算出の注目度): 85.6725307453325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning is a topic of significant interest in recent deep learning
research because it enables faster convergence and improved performance on new
tasks. While the performance of transfer learning depends on the similarity of
the source data to the target data, it is costly to train a model on a large
number of datasets. Therefore, pretrained models are generally blindly selected
with the hope that they will achieve good performance on the given task. To
tackle such suboptimality of the pretrained models, we propose an efficient and
adaptive transfer learning scheme through dataset-conditioned pretrained
weights sampling. Specifically, we use a latent diffusion model with a
variational autoencoder that can reconstruct the neural network weights, to
learn the distribution of a set of pretrained weights conditioned on each
dataset for transfer learning on unseen datasets. By learning the distribution
of a neural network on a variety pretrained models, our approach enables
adaptive sampling weights for unseen datasets achieving faster convergence and
reaching competitive performance.
- Abstract(参考訳): 転送学習は、新しいタスクでのより高速な収束とパフォーマンス向上を可能にするため、最近のディープラーニング研究において重要な関心事となっている。
転送学習の性能は、ソースデータとターゲットデータとの類似性に依存するが、大量のデータセット上でモデルをトレーニングするのはコストがかかる。
したがって、事前訓練されたモデルは、通常、与えられたタスクに対して優れたパフォーマンスを期待して、盲目的に選択される。
このような事前学習モデルの最適性に取り組むために,データセットによる事前学習重み付けサンプリングによる効率良く適応的な伝達学習手法を提案する。
具体的には,ニューラルネットワーク重みを再構成可能な可変オートエンコーダを備えた潜在拡散モデルを用いて,各データセットに条件付けられた事前学習重みのセットの分布を学習し,未知のデータセット上での転送学習を行う。
ニューラルネットワークの分布を多種多様な事前学習モデル上で学習することにより,非知覚データセットに対する適応的なサンプリング重み付けを可能にし,より高速な収束と競合性能を達成する。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Transfer Learning with Foundational Models for Time Series Forecasting using Low-Rank Adaptations [0.0]
本研究はLlama Lora-Integrated Autorregresive ModelであるLLIAMを提案する。
低ランク適応は、微調整フェーズとして知られる様々な時系列データセットでモデルの知識を高めるために使用される。
論文 参考訳(メタデータ) (2024-10-15T12:14:01Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Generative Learning of Continuous Data by Tensor Networks [45.49160369119449]
本稿では,連続データのためのテンソルネットワーク生成モデルについて紹介する。
我々は、このモデルの性能を、いくつかの合成および実世界のデータセットでベンチマークする。
本手法は, 急速に成長する生成学習分野において, 量子インスピレーション法の有効性を示す重要な理論的, 実証的な証拠を与える。
論文 参考訳(メタデータ) (2023-10-31T14:37:37Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Regularizing Generative Adversarial Networks under Limited Data [88.57330330305535]
本研究は、限られたデータ上で堅牢なGANモデルをトレーニングするための正規化手法を提案する。
正規化損失とLeCam-divergenceと呼ばれるf-divergenceの関連性を示す。
論文 参考訳(メタデータ) (2021-04-07T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。