論文の概要: Recurrent Diffusion for Large-Scale Parameter Generation
- arxiv url: http://arxiv.org/abs/2501.11587v1
- Date: Mon, 20 Jan 2025 16:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:45.262505
- Title: Recurrent Diffusion for Large-Scale Parameter Generation
- Title(参考訳): 大規模パラメータ生成のための繰り返し拡散
- Authors: Kai Wang, Dongwen Tang, Wangbo Zhao, Yang You,
- Abstract要約: 我々は,textbfRPGと呼ばれる大規模textbfParameter textbfGenerationに対して,textbfRecurrent拡散を導入する。
単一のGPUでLLaMA-7BのConvNeXt-LやLoRAパラメータなどの一般的なビジョンと言語モデルを生成する。
- 参考スコア(独自算出の注目度): 12.552269794897642
- License:
- Abstract: Parameter generation has struggled to scale up for a long time, significantly limiting its range of applications. In this study, we introduce \textbf{R}ecurrent diffusion for large-scale \textbf{P}arameter \textbf{G}eneration, called \textbf{RPG}. We first divide the trained parameters into non-overlapping parts, after which a recurrent model is proposed to learn their relationships. The recurrent model's outputs, as conditions, are then fed into a diffusion model to generate the neural network parameters. Using only a single GPU, recurrent diffusion enables us to generate popular vision and language models such as ConvNeXt-L and LoRA parameters of LLaMA-7B. Meanwhile, across various architectures and tasks, the generated parameters consistently perform comparable results over trained networks. Notably, our approach also shows the potential to generate models for handling unseen tasks, which largely increases the practicality of parameter generation. Our code is available \href{https://github.com/NUS-HPC-AI-Lab/Recurrent-Parameter-Generation}{here}.
- Abstract(参考訳): パラメータ生成は長い間、スケールアップに苦労しており、アプリケーションの範囲を著しく制限している。
本研究では,大規模な \textbf{P}arameter \textbf{G}eneration に対して \textbf{R}ecurrent diffusion を導入し,これを \textbf{RPG} と呼ぶ。
まず、トレーニングされたパラメータを非重複部分に分割し、その後、リカレントモデルを提案し、それらの関係を学習する。
繰り返しモデルの出力は、条件として拡散モデルに入力され、ニューラルネットワークパラメータを生成する。
単一のGPUのみを用いて、リカレント拡散により、LLaMA-7BのConvNeXt-LやLoRAパラメータなどの一般的なビジョンや言語モデルを生成することができる。
一方、様々なアーキテクチャやタスクにまたがって、生成されたパラメータはトレーニングされたネットワーク上で一貫して同等の結果を発揮する。
特に,本手法は,未確認タスクを扱うモデルを生成する可能性を示し,パラメータ生成の実用性を大幅に向上させる。
私たちのコードは href{https://github.com/NUS-HPC-AI-Lab/recurrent-Parameter-Generation}{here} で利用可能です。
関連論文リスト
- Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。
我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文 参考訳(メタデータ) (2024-10-28T17:25:56Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Conditional LoRA Parameter Generation [18.34892473337235]
制御可能な高性能パラメータ生成の実現可能性を示す新しいアプローチであるCOND P-DIFFを提案する。
コンピュータビジョンと自然言語処理の両領域における実験結果から, COND P-DIFF が与えられたタスクに条件付き高性能なパラメータを生成できることが一貫して示されている。
我々の研究は、条件駆動パラメータ生成のさらなる探求の道を開き、ニューラルネットワークのタスク固有の適応のための有望な方向を提供する。
論文 参考訳(メタデータ) (2024-08-02T17:43:34Z) - LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters [31.55846326336193]
Graph HyperNetworks(GHN)は先日,大規模なビジョンモデルの初期化において,強力なパフォーマンスを示している。
LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
論文 参考訳(メタデータ) (2024-05-25T15:56:15Z) - Neural Network Diffusion [45.851945143942885]
拡散モデルはランダムノイズから潜在表現を合成するために訓練される。
このモデルは次に新しい表現を生成し、オートエンコーダのデコーダを通過してハイパフォーマンスなネットワークパラメータの新しいサブセットを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - Tracing Hyperparameter Dependencies for Model Parsing via Learnable Graph Pooling Network [21.484648648511854]
本稿では,LGPN(Learningable Graph Pooling Network)と呼ばれる新しいモデル解析手法を提案する。
LGPNには、モデル解析に適した学習可能なプールアンプール機構が組み込まれている。
提案手法をCNN生成画像検出と協調攻撃検出に拡張する。
論文 参考訳(メタデータ) (2023-12-03T22:05:05Z) - PriorCVAE: scalable MCMC parameter inference with Bayesian deep
generative modelling [12.820453440015553]
近年、可変オートエンコーダ(VAE)のような深層生成モデルを用いてGPプリエントを符号化できることが示されている。
MCMC推論において、VAEが元のプリミティブのドロップイン置換としてどのように機能するかを示す。
ODEの解を符号化するために、PresideCVAEを提案する。
論文 参考訳(メタデータ) (2023-04-09T20:23:26Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。