論文の概要: Recurrent Diffusion for Large-Scale Parameter Generation
- arxiv url: http://arxiv.org/abs/2501.11587v2
- Date: Tue, 11 Feb 2025 03:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:04:35.353366
- Title: Recurrent Diffusion for Large-Scale Parameter Generation
- Title(参考訳): 大規模パラメータ生成のための繰り返し拡散
- Authors: Kai Wang, Dongwen Tang, Wangbo Zhao, Konstantin Schürholt, Zhangyang Wang, Yang You,
- Abstract要約: リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
- 参考スコア(独自算出の注目度): 52.98888368644455
- License:
- Abstract: Parameter generation has long struggled to match the scale of today large vision and language models, curbing its broader utility. In this paper, we introduce Recurrent Diffusion for Large Scale Parameter Generation (RPG), a novel framework that generates full neural network parameters up to hundreds of millions on a single GPU. Our approach first partitions a networks parameters into non-overlapping tokens, each corresponding to a distinct portion of the model. A recurrent mechanism then learns the inter token relationships, producing prototypes which serve as conditions for a diffusion process that ultimately synthesizes the full parameters. Across a spectrum of architectures and tasks including ResNets, ConvNeXts and ViTs on ImageNet 1K and COCO, and even LoRA based LLMs RPG achieves performance on par with fully trained networks while avoiding excessive memory overhead. Notably, it generalizes beyond its training set to generate valid parameters for previously unseen tasks, highlighting its flexibility in dynamic and open ended scenarios. By overcoming the longstanding memory and scalability barriers, RPG serves as a critical advance in AI generating AI, potentially enabling efficient weight generation at scales previously deemed infeasible.
- Abstract(参考訳): パラメータ生成は、今日の大きなビジョンと言語モデルの規模に合わせるのに長い間苦労してきた。
本稿では,1つのGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークであるRecurrent Diffusion for Large Scale Parameter Generation(RPG)を紹介する。
我々のアプローチはまず、ネットワークパラメータを非重複トークンに分割し、それぞれがモデルの別の部分に対応する。
その後、繰り返し機構がトークン間の関係を学習し、完全なパラメータを最終的に合成する拡散過程の条件として機能するプロトタイプを生成する。
ResNets, ConvNeXts, ViTs on ImageNet 1K, COCO,さらには LoRA ベースの LLM RPG さえも,完全なトレーニングネットワークと同等のパフォーマンスを達成しつつ,過剰なメモリオーバーヘッドを回避している。
特に、トレーニングセットを超えて、以前は目に見えないタスクの有効なパラメータを生成し、動的でオープンな終了シナリオにおける柔軟性を強調している。
長期的なメモリとスケーラビリティの障壁を克服することによって、RPGはAI生成AIの重要な進歩となり、これまで不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters [31.55846326336193]
Graph HyperNetworks(GHN)は先日,大規模なビジョンモデルの初期化において,強力なパフォーマンスを示している。
LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
論文 参考訳(メタデータ) (2024-05-25T15:56:15Z) - Transfer-Once-For-All: AI Model Optimization for Edge [0.0]
計算訓練コストを一定に抑えた小データセット上でのスーパーネット型トレーニングのためのTransfer-Once-For-All(TOFA)を提案する。
小さなデータから生じる課題を克服するため、TOFAは、統合された半教師付きトレーニング損失を使用して、スーパーネット内のすべての既存のものを同時にトレーニングする。
論文 参考訳(メタデータ) (2023-03-27T04:14:30Z) - DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion [89.92242000948026]
本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。
特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。
私たちの戦略は、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールします。
論文 参考訳(メタデータ) (2021-11-22T16:29:06Z) - Recurrent Parameter Generators [42.159272098922685]
本稿では,多くの異なる畳み込み層に対して同じパラメータを反復的に使用してディープネットワークを構築するための汎用的手法を提案する。
我々は,従来のCNNモデルと同じような性能を実現するために,一層ニューラルネットワークを構築する方法を示す。
論文 参考訳(メタデータ) (2021-07-15T04:23:59Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。