論文の概要: LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters
- arxiv url: http://arxiv.org/abs/2405.16287v1
- Date: Sat, 25 May 2024 15:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-28 22:07:19.347664
- Title: LoGAH: Predicting 774-Million-Parameter Transformers using Graph HyperNetworks with 1/100 Parameters
- Title(参考訳): LoGAH: 1/100パラメータグラフハイパーネットを用いた774ミリパラメータ変換器の予測
- Authors: Xinyu Zhou, Boris Knyazev, Alexia Jolicoeur-Martineau, Jie Fu,
- Abstract要約: Graph HyperNetworks(GHN)は先日,大規模なビジョンモデルの初期化において,強力なパフォーマンスを示している。
LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
- 参考スコア(独自算出の注目度): 31.55846326336193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A good initialization of deep learning models is essential since it can help them converge better and faster. However, pretraining large models is unaffordable for many researchers, which makes a desired prediction for initial parameters more necessary nowadays. Graph HyperNetworks (GHNs), one approach to predicting model parameters, have recently shown strong performance in initializing large vision models. Unfortunately, predicting parameters of very wide networks relies on copying small chunks of parameters multiple times and requires an extremely large number of parameters to support full prediction, which greatly hinders its adoption in practice. To address this limitation, we propose LoGAH (Low-rank GrAph Hypernetworks), a GHN with a low-rank parameter decoder that expands to significantly wider networks without requiring as excessive increase of parameters as in previous attempts. LoGAH allows us to predict the parameters of 774-million large neural networks in a memory-efficient manner. We show that vision and language models (i.e., ViT and GPT-2) initialized with LoGAH achieve better performance than those initialized randomly or using existing hypernetworks. Furthermore, we show promising transfer learning results w.r.t. training LoGAH on small datasets and using the predicted parameters to initialize for larger tasks. We provide the codes in https://github.com/Blackzxy/LoGAH .
- Abstract(参考訳): ディープラーニングモデルの優れた初期化が不可欠である。
しかし、多くの研究者にとって、大規模なモデルの事前学習は困難であり、現在では初期パラメータの予測がより必要である。
モデルパラメータを予測する1つのアプローチであるGraph HyperNetworks(GHNs)は、最近、大規模なビジョンモデルの初期化において、強力なパフォーマンスを示している。
残念ながら、非常に広いネットワークのパラメータを予測するには、パラメータの小さなチャンクを複数回コピーする必要がある。
この制限に対処するために,低ランクパラメータデコーダを備えたGHNであるLoGAH(Low-rank GrAph Hypernetworks)を提案する。
LoGAHにより、774万の大規模ニューラルネットワークのパラメータをメモリ効率よく予測できる。
視覚と言語モデル(ViTとGPT-2)がLoGAHで初期化された場合、ランダムに初期化されたものや既存のハイパーネットよりも優れた性能が得られることを示す。
さらに、小さなデータセット上でLoGAHをトレーニングし、予測されたパラメータを使ってより大きなタスクを初期化する、有望な転送学習結果を示す。
私たちはhttps://github.com/Blackzxy/LoGAH のコードを提供しています。
関連論文リスト
- Predictable Scale: Part I -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [56.58170370127227]
最適な学習速度は、モデルパラメータとデータサイズの両方とのパワー-法則関係に従うが、最適なバッチサイズは、主にデータサイズでスケールする。
この研究は、Mixture-of-Expertsモデルや高密度トランスなど、異なるモデル形状と構造を統一する最初の研究である。
論文 参考訳(メタデータ) (2025-03-06T18:58:29Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Adjusting Model Size in Continual Gaussian Processes: How Big is Big Enough? [11.43983519639935]
多くの機械学習モデルでは、トレーニング前にサイズを制御するパラメータを設定する必要がある。
「これは、どのくらい大きいのか」という疑問に繋がる。
ここでは、データが漸進的に利用可能になるため、最終的なデータセットサイズはトレーニング前には分かっていない。
最適な性能を維持しつつ,モデルサイズを自動的に調整する手法を開発した。
論文 参考訳(メタデータ) (2024-08-14T14:40:00Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Do deep neural networks utilize the weight space efficiently? [2.9914612342004503]
TransformersやConvolutional Neural Networks(CNN)といったディープラーニングモデルは、さまざまなドメインに革命をもたらしたが、パラメータ集約的な自然ハマーをリソース制約された設定に配置する。
重み行列の列空間と行空間を利用する新しい概念を導入し、性能を損なうことなくモデルパラメータを大幅に削減する。
私たちのアプローチはBottleneck層とAttention層の両方に適用され、パラメータを効果的に半分にします。
論文 参考訳(メタデータ) (2024-01-26T21:51:49Z) - ParameterNet: Parameters Are All You Need [50.150436250355945]
本稿では,大規模視覚前訓練モデルにおいて,パラメータ数を増やすことを目的とした新しい設計原理であるNetを紹介する。
動的畳み込みを利用して、FLOPをわずかに増加させるだけで、追加のパラメータをネットワークに組み込む。
Netアプローチにより、低FLOPネットワークは大規模な視覚前訓練を利用することができる。
論文 参考訳(メタデータ) (2023-06-26T09:01:35Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - Can We Scale Transformers to Predict Parameters of Diverse ImageNet
Models? [23.668513148189344]
私たちは、他のニューラルネットワークの高品質なパラメータを予測できる単一のニューラルネットワークをリリースします。
PyTorchで利用可能な多様なImageNetモデルのトレーニングを強化することができます。
他のデータセットに転送されると、予測パラメータを持つモデルはより早く収束し、競合する最終性能に達する。
論文 参考訳(メタデータ) (2023-03-07T18:56:59Z) - Learning to Learn with Generative Models of Neural Network Checkpoints [71.06722933442956]
ニューラルネットワークのチェックポイントのデータセットを構築し,パラメータの生成モデルをトレーニングする。
提案手法は,幅広い損失プロンプトに対するパラメータの生成に成功している。
我々は、教師付きおよび強化学習における異なるニューラルネットワークアーキテクチャとタスクに本手法を適用した。
論文 参考訳(メタデータ) (2022-09-26T17:59:58Z) - Pretraining a Neural Network before Knowing Its Architecture [2.170169149901781]
大規模なニューラルネットワークのトレーニングは、大きなニューラルネットワークのパラメータを予測する小さなハイパーネットワークをトレーニングすることで可能である。
最近リリースされたGraph HyperNetwork(GHN)は、100万の小さなImageNetアーキテクチャを使って、ResNet-50のような巨大な未確認ネットワークのパラメータを予測することができるようにトレーニングした。
予測されたパラメータを持つネットワークは、ソースタスクの性能を失うが、予測されたパラメータは他のタスクの微調整に有用であることが判明した。
論文 参考訳(メタデータ) (2022-07-20T17:27:50Z) - Re-parameterizing Your Optimizers rather than Architectures [119.08740698936633]
本稿では,モデル固有の事前知識を構造学に取り入れ,汎用モデル(簡易モデル)の学習に使用する新しいパラダイムを提案する。
実装として,モデル固有のハイパーパラメータの集合に従って勾配を変更することによって,事前知識を付加する手法を提案する。
Reprでトレーニングされた単純なモデルに対しては、VGGスタイルのプレーンモデルに注目し、ReprでトレーニングされたそのようなシンプルなモデルがRep-VGGと呼ばれ、最近のよく設計されたモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-05-30T16:55:59Z) - Parameter Prediction for Unseen Deep Architectures [23.79630072083828]
我々は、他のネットワークを訓練する過去の知識を利用して、ディープラーニングを使ってパラメータを直接予測できるかどうか検討する。
本稿では,CPU上でも1秒の間隔で1回のフォワードパスで性能パラメータを予測できるハイパーネットワークを提案する。
提案したモデルは、目に見えない多様なネットワーク上で驚くほど優れた性能を達成する。
論文 参考訳(メタデータ) (2021-10-25T16:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。