論文の概要: Recurrent Diffusion for Large-Scale Parameter Generation
- arxiv url: http://arxiv.org/abs/2501.11587v1
- Date: Mon, 20 Jan 2025 16:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:45.262505
- Title: Recurrent Diffusion for Large-Scale Parameter Generation
- Title(参考訳): 大規模パラメータ生成のための繰り返し拡散
- Authors: Kai Wang, Dongwen Tang, Wangbo Zhao, Yang You,
- Abstract要約: 我々は,textbfRPGと呼ばれる大規模textbfParameter textbfGenerationに対して,textbfRecurrent拡散を導入する。
単一のGPUでLLaMA-7BのConvNeXt-LやLoRAパラメータなどの一般的なビジョンと言語モデルを生成する。
- 参考スコア(独自算出の注目度): 12.552269794897642
- License:
- Abstract: Parameter generation has struggled to scale up for a long time, significantly limiting its range of applications. In this study, we introduce \textbf{R}ecurrent diffusion for large-scale \textbf{P}arameter \textbf{G}eneration, called \textbf{RPG}. We first divide the trained parameters into non-overlapping parts, after which a recurrent model is proposed to learn their relationships. The recurrent model's outputs, as conditions, are then fed into a diffusion model to generate the neural network parameters. Using only a single GPU, recurrent diffusion enables us to generate popular vision and language models such as ConvNeXt-L and LoRA parameters of LLaMA-7B. Meanwhile, across various architectures and tasks, the generated parameters consistently perform comparable results over trained networks. Notably, our approach also shows the potential to generate models for handling unseen tasks, which largely increases the practicality of parameter generation. Our code is available \href{https://github.com/NUS-HPC-AI-Lab/Recurrent-Parameter-Generation}{here}.
- Abstract(参考訳): パラメータ生成は長い間、スケールアップに苦労しており、アプリケーションの範囲を著しく制限している。
本研究では,大規模な \textbf{P}arameter \textbf{G}eneration に対して \textbf{R}ecurrent diffusion を導入し,これを \textbf{RPG} と呼ぶ。
まず、トレーニングされたパラメータを非重複部分に分割し、その後、リカレントモデルを提案し、それらの関係を学習する。
繰り返しモデルの出力は、条件として拡散モデルに入力され、ニューラルネットワークパラメータを生成する。
単一のGPUのみを用いて、リカレント拡散により、LLaMA-7BのConvNeXt-LやLoRAパラメータなどの一般的なビジョンや言語モデルを生成することができる。
一方、様々なアーキテクチャやタスクにまたがって、生成されたパラメータはトレーニングされたネットワーク上で一貫して同等の結果を発揮する。
特に,本手法は,未確認タスクを扱うモデルを生成する可能性を示し,パラメータ生成の実用性を大幅に向上させる。
私たちのコードは href{https://github.com/NUS-HPC-AI-Lab/recurrent-Parameter-Generation}{here} で利用可能です。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters [31.55846326336193]
Graph HyperNetworks(GHN)は先日,大規模なビジョンモデルの初期化において,強力なパフォーマンスを示している。
LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
論文 参考訳(メタデータ) (2024-05-25T15:56:15Z) - Transfer-Once-For-All: AI Model Optimization for Edge [0.0]
計算訓練コストを一定に抑えた小データセット上でのスーパーネット型トレーニングのためのTransfer-Once-For-All(TOFA)を提案する。
小さなデータから生じる課題を克服するため、TOFAは、統合された半教師付きトレーニング損失を使用して、スーパーネット内のすべての既存のものを同時にトレーニングする。
論文 参考訳(メタデータ) (2023-03-27T04:14:30Z) - DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion [89.92242000948026]
本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。
特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。
私たちの戦略は、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールします。
論文 参考訳(メタデータ) (2021-11-22T16:29:06Z) - Recurrent Parameter Generators [42.159272098922685]
本稿では,多くの異なる畳み込み層に対して同じパラメータを反復的に使用してディープネットワークを構築するための汎用的手法を提案する。
我々は,従来のCNNモデルと同じような性能を実現するために,一層ニューラルネットワークを構築する方法を示す。
論文 参考訳(メタデータ) (2021-07-15T04:23:59Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。