論文の概要: Recurrent Diffusion for Large-Scale Parameter Generation
- arxiv url: http://arxiv.org/abs/2501.11587v2
- Date: Tue, 11 Feb 2025 03:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 16:10:29.542618
- Title: Recurrent Diffusion for Large-Scale Parameter Generation
- Title(参考訳): 大規模パラメータ生成のための繰り返し拡散
- Authors: Kai Wang, Dongwen Tang, Wangbo Zhao, Konstantin Schürholt, Zhangyang Wang, Yang You,
- Abstract要約: リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
- 参考スコア(独自算出の注目度): 52.98888368644455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter generation has long struggled to match the scale of today large vision and language models, curbing its broader utility. In this paper, we introduce Recurrent Diffusion for Large Scale Parameter Generation (RPG), a novel framework that generates full neural network parameters up to hundreds of millions on a single GPU. Our approach first partitions a networks parameters into non-overlapping tokens, each corresponding to a distinct portion of the model. A recurrent mechanism then learns the inter token relationships, producing prototypes which serve as conditions for a diffusion process that ultimately synthesizes the full parameters. Across a spectrum of architectures and tasks including ResNets, ConvNeXts and ViTs on ImageNet 1K and COCO, and even LoRA based LLMs RPG achieves performance on par with fully trained networks while avoiding excessive memory overhead. Notably, it generalizes beyond its training set to generate valid parameters for previously unseen tasks, highlighting its flexibility in dynamic and open ended scenarios. By overcoming the longstanding memory and scalability barriers, RPG serves as a critical advance in AI generating AI, potentially enabling efficient weight generation at scales previously deemed infeasible.
- Abstract(参考訳): パラメータ生成は、今日の大きなビジョンと言語モデルの規模に合わせるのに長い間苦労してきた。
本稿では,1つのGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークであるRecurrent Diffusion for Large Scale Parameter Generation(RPG)を紹介する。
我々のアプローチはまず、ネットワークパラメータを非重複トークンに分割し、それぞれがモデルの別の部分に対応する。
その後、繰り返し機構がトークン間の関係を学習し、完全なパラメータを最終的に合成する拡散過程の条件として機能するプロトタイプを生成する。
ResNets, ConvNeXts, ViTs on ImageNet 1K, COCO,さらには LoRA ベースの LLM RPG さえも,完全なトレーニングネットワークと同等のパフォーマンスを達成しつつ,過剰なメモリオーバーヘッドを回避している。
特に、トレーニングセットを超えて、以前は目に見えないタスクの有効なパラメータを生成し、動的でオープンな終了シナリオにおける柔軟性を強調している。
長期的なメモリとスケーラビリティの障壁を克服することによって、RPGはAI生成AIの重要な進歩となり、これまで不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
関連論文リスト
- Instruction-Guided Autoregressive Neural Network Parameter Generation [49.800239140036496]
本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。
ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。
複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
論文 参考訳(メタデータ) (2025-04-02T05:50:19Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Conditional LoRA Parameter Generation [18.34892473337235]
制御可能な高性能パラメータ生成の実現可能性を示す新しいアプローチであるCOND P-DIFFを提案する。
コンピュータビジョンと自然言語処理の両領域における実験結果から, COND P-DIFF が与えられたタスクに条件付き高性能なパラメータを生成できることが一貫して示されている。
我々の研究は、条件駆動パラメータ生成のさらなる探求の道を開き、ニューラルネットワークのタスク固有の適応のための有望な方向を提供する。
論文 参考訳(メタデータ) (2024-08-02T17:43:34Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters [31.55846326336193]
Graph HyperNetworks(GHN)は先日,大規模なビジョンモデルの初期化において,強力なパフォーマンスを示している。
LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
論文 参考訳(メタデータ) (2024-05-25T15:56:15Z) - Neural Network Diffusion [45.851945143942885]
拡散モデルはランダムノイズから潜在表現を合成するために訓練される。
このモデルは次に新しい表現を生成し、オートエンコーダのデコーダを通過してハイパフォーマンスなネットワークパラメータの新しいサブセットを生成する。
論文 参考訳(メタデータ) (2024-02-20T16:59:03Z) - Tracing Hyperparameter Dependencies for Model Parsing via Learnable Graph Pooling Network [21.484648648511854]
本稿では,LGPN(Learningable Graph Pooling Network)と呼ばれる新しいモデル解析手法を提案する。
LGPNには、モデル解析に適した学習可能なプールアンプール機構が組み込まれている。
提案手法をCNN生成画像検出と協調攻撃検出に拡張する。
論文 参考訳(メタデータ) (2023-12-03T22:05:05Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion [89.92242000948026]
本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。
特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。
私たちの戦略は、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールします。
論文 参考訳(メタデータ) (2021-11-22T16:29:06Z) - Recurrent Parameter Generators [42.159272098922685]
本稿では,多くの異なる畳み込み層に対して同じパラメータを反復的に使用してディープネットワークを構築するための汎用的手法を提案する。
我々は,従来のCNNモデルと同じような性能を実現するために,一層ニューラルネットワークを構築する方法を示す。
論文 参考訳(メタデータ) (2021-07-15T04:23:59Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。