論文の概要: Efficient Training with Denoised Neural Weights
- arxiv url: http://arxiv.org/abs/2407.11966v1
- Date: Tue, 16 Jul 2024 17:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 13:43:56.092697
- Title: Efficient Training with Denoised Neural Weights
- Title(参考訳): Denoized Neural Weights を用いた高能率トレーニング
- Authors: Yifan Gong, Zheng Zhan, Yanyu Li, Yerlan Idelbayev, Andrey Zharkov, Kfir Aberman, Sergey Tulyakov, Yanzhi Wang, Jian Ren,
- Abstract要約: この研究は、初期化のために神経重みを合成するウェイトジェネレータを構築するための新しい一歩を踏み出した。
本稿では,モデル重みの収集を容易にするために,GANを用いた画像間翻訳タスクを例に挙げる。
拡散モデルによって予測される重み付き画像翻訳モデルを初期化することにより、トレーニングは43.3秒しか必要としない。
- 参考スコア(独自算出の注目度): 65.14892033932895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Good weight initialization serves as an effective measure to reduce the training cost of a deep neural network (DNN) model. The choice of how to initialize parameters is challenging and may require manual tuning, which can be time-consuming and prone to human error. To overcome such limitations, this work takes a novel step towards building a weight generator to synthesize the neural weights for initialization. We use the image-to-image translation task with generative adversarial networks (GANs) as an example due to the ease of collecting model weights spanning a wide range. Specifically, we first collect a dataset with various image editing concepts and their corresponding trained weights, which are later used for the training of the weight generator. To address the different characteristics among layers and the substantial number of weights to be predicted, we divide the weights into equal-sized blocks and assign each block an index. Subsequently, a diffusion model is trained with such a dataset using both text conditions of the concept and the block indexes. By initializing the image translation model with the denoised weights predicted by our diffusion model, the training requires only 43.3 seconds. Compared to training from scratch (i.e., Pix2pix), we achieve a 15x training time acceleration for a new concept while obtaining even better image generation quality.
- Abstract(参考訳): 優れた初期化は、ディープニューラルネットワーク(DNN)モデルのトレーニングコストを削減するための効果的な手段となる。
パラメータを初期化する方法の選択は困難であり、手動のチューニングを必要とする可能性がある。
このような制限を克服するために、この研究は、初期化のために神経重みを合成するウェイトジェネレータを構築するための新しいステップを踏む。
画像から画像への変換タスクをGAN(Generative Adversarial Network)を用いて,広い範囲にまたがるモデル重みの収集が容易であることを示す。
具体的には、まず、様々な画像編集概念とそれに対応するトレーニングされた重量のデータセットを収集し、後に重量発生器の訓練に使用される。
レイヤ間の異なる特性と予測すべき重みのかなりの数に対処するため、重みを等サイズのブロックに分割し、各ブロックにインデックスを割り当てる。
その後、拡散モデルは、概念のテキスト条件とブロックインデックスの両方を用いて、そのようなデータセットで訓練される。
拡散モデルによって予測される重み付き画像翻訳モデルを初期化することにより、トレーニングは43.3秒しか必要としない。
スクラッチからのトレーニング(Pix2pix)と比較して、新しいコンセプトのための15倍のトレーニングタイムアクセラレーションを実現し、より優れた画像生成品質を得る。
関連論文リスト
- An Effective Weight Initialization Method for Deep Learning: Application to Satellite Image Classification [0.995313069446686]
重み初期化技術は伝統的に、広範囲なデータセットでトレーニングする前にネットワークの重みを初期化する。
本研究では,衛星画像分類の文脈において,新しい重み初期化手法を提案する。
提案手法は,畳み込みニューラルネットワーク(CNN)モデルの前方・後方通過において,数学的に詳細なものである。
論文 参考訳(メタデータ) (2024-06-01T07:56:02Z) - Weight subcloning: direct initialization of transformers using larger
pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-12-14T19:08:56Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Random Weights Networks Work as Loss Prior Constraint for Image
Restoration [50.80507007507757]
「画像復元の優先制約としてランダムウェイトネットワークを機能させることができる」という信念を提示する。」
我々の信念は、計算コストのトレーニングやテストなしに、既存のネットワークに直接挿入することができる。
強調しておきたいのは、損失関数の領域を刺激し、現在無視されている状態を保存することです。
論文 参考訳(メタデータ) (2023-03-29T03:43:51Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Powers of layers for image-to-image translation [60.5529622990682]
本稿では,未ペア画像から画像への変換タスクに対処するシンプルなアーキテクチャを提案する。
固定重み付きイメージオートエンコーダアーキテクチャから始める。
各タスクに対して、潜在空間で動作している残留ブロックを学習し、ターゲット領域に到達するまで繰り返し呼び出される。
論文 参考訳(メタデータ) (2020-08-13T09:02:17Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。