Fugu-MT 論文翻訳(概要): Recurrent Diffusion for Large-Scale Parameter Generation

論文の概要: Recurrent Diffusion for Large-Scale Parameter Generation

arxiv url: http://arxiv.org/abs/2501.11587v1
Date: Mon, 20 Jan 2025 16:46:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.45869
Title: Recurrent Diffusion for Large-Scale Parameter Generation
Title（参考訳）: 大規模パラメータ生成のための繰り返し拡散
Authors: Kai Wang, Dongwen Tang, Wangbo Zhao, Yang You,
Abstract要約: 我々は,textbfRPGと呼ばれる大規模textbfParameter textbfGenerationに対して,textbfRecurrent拡散を導入する。単一のGPUでLLaMA-7BのConvNeXt-LやLoRAパラメータなどの一般的なビジョンと言語モデルを生成する。
参考スコア（独自算出の注目度）: 12.552269794897642
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Parameter generation has struggled to scale up for a long time, significantly limiting its range of applications. In this study, we introduce \textbf{R}ecurrent diffusion for large-scale \textbf{P}arameter \textbf{G}eneration, called \textbf{RPG}. We first divide the trained parameters into non-overlapping parts, after which a recurrent model is proposed to learn their relationships. The recurrent model's outputs, as conditions, are then fed into a diffusion model to generate the neural network parameters. Using only a single GPU, recurrent diffusion enables us to generate popular vision and language models such as ConvNeXt-L and LoRA parameters of LLaMA-7B. Meanwhile, across various architectures and tasks, the generated parameters consistently perform comparable results over trained networks. Notably, our approach also shows the potential to generate models for handling unseen tasks, which largely increases the practicality of parameter generation. Our code is available \href{https://github.com/NUS-HPC-AI-Lab/Recurrent-Parameter-Generation}{here}.
Abstract（参考訳）: パラメータ生成は長い間、スケールアップに苦労しており、アプリケーションの範囲を著しく制限している。本研究では,大規模な \textbf{P}arameter \textbf{G}eneration に対して \textbf{R}ecurrent diffusion を導入し,これを \textbf{RPG} と呼ぶ。まず、トレーニングされたパラメータを非重複部分に分割し、その後、リカレントモデルを提案し、それらの関係を学習する。繰り返しモデルの出力は、条件として拡散モデルに入力され、ニューラルネットワークパラメータを生成する。単一のGPUのみを用いて、リカレント拡散により、LLaMA-7BのConvNeXt-LやLoRAパラメータなどの一般的なビジョンや言語モデルを生成することができる。一方、様々なアーキテクチャやタスクにまたがって、生成されたパラメータはトレーニングされたネットワーク上で一貫して同等の結果を発揮する。特に,本手法は,未確認タスクを扱うモデルを生成する可能性を示し,パラメータ生成の実用性を大幅に向上させる。私たちのコードは href{https://github.com/NUS-HPC-AI-Lab/recurrent-Parameter-Generation}{here} で利用可能です。

関連論文リスト

Instruction-Guided Autoregressive Neural Network Parameter Generation [49.800239140036496]
本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
論文参考訳（メタデータ） (2025-04-02T05:50:19Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
Conditional LoRA Parameter Generation [18.34892473337235]
制御可能な高性能パラメータ生成の実現可能性を示す新しいアプローチであるCOND P-DIFFを提案する。コンピュータビジョンと自然言語処理の両領域における実験結果から, COND P-DIFF が与えられたタスクに条件付き高性能なパラメータを生成できることが一貫して示されている。我々の研究は、条件駆動パラメータ生成のさらなる探求の道を開き、ニューラルネットワークのタスク固有の適応のための有望な方向を提供する。
論文参考訳（メタデータ） (2024-08-02T17:43:34Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters [31.55846326336193]
Graph HyperNetworks(GHN)は先日,大規模なビジョンモデルの初期化において,強力なパフォーマンスを示している。 LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
論文参考訳（メタデータ） (2024-05-25T15:56:15Z)
Neural Network Diffusion [45.851945143942885]
拡散モデルはランダムノイズから潜在表現を合成するために訓練される。このモデルは次に新しい表現を生成し、オートエンコーダのデコーダを通過してハイパフォーマンスなネットワークパラメータの新しいサブセットを生成する。
論文参考訳（メタデータ） (2024-02-20T16:59:03Z)
Tracing Hyperparameter Dependencies for Model Parsing via Learnable Graph Pooling Network [21.484648648511854]
本稿では,LGPN(Learningable Graph Pooling Network)と呼ばれる新しいモデル解析手法を提案する。 LGPNには、モデル解析に適した学習可能なプールアンプール機構が組み込まれている。提案手法をCNN生成画像検出と協調攻撃検出に拡張する。
論文参考訳（メタデータ） (2023-12-03T22:05:05Z)
Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文参考訳（メタデータ） (2022-09-26T17:59:58Z)
DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion [89.92242000948026]
本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。私たちの戦略は、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールします。
論文参考訳（メタデータ） (2021-11-22T16:29:06Z)
Recurrent Parameter Generators [42.159272098922685]
本稿では,多くの異なる畳み込み層に対して同じパラメータを反復的に使用してディープネットワークを構築するための汎用的手法を提案する。我々は,従来のCNNモデルと同じような性能を実現するために,一層ニューラルネットワークを構築する方法を示す。
論文参考訳（メタデータ） (2021-07-15T04:23:59Z)
Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文参考訳（メタデータ） (2020-10-08T15:27:50Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。