論文の概要: Scalable Learned Model Soup on a Single GPU: An Efficient Subspace Training Strategy
- arxiv url: http://arxiv.org/abs/2407.03641v1
- Date: Thu, 4 Jul 2024 05:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 19:11:48.474857
- Title: Scalable Learned Model Soup on a Single GPU: An Efficient Subspace Training Strategy
- Title(参考訳): 単一GPU上でのスケーラブルな学習モデルセットアップ - 効率的なサブスペーストレーニング戦略
- Authors: Tao Li, Weisen Jiang, Fanghui Liu, Xiaolin Huang, James T. Kwok,
- Abstract要約: モデルスープの変種であるLearned-Soupは、パフォーマンスを大幅に改善するが、メモリと時間コストが大幅に低下する。
本稿では,この問題に対処するために,メモリ効率の高いハイパープレーン学習スープ(MEHL-Soup)を提案する。
テスト精度ではMEHL-Soup(+)がLearred-Soup(+)より優れており,メモリ使用量も13ドル以上削減されている。
- 参考スコア(独自算出の注目度): 45.48742652332425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training followed by fine-tuning is widely adopted among practitioners. The performance can be improved by "model soups"~\cite{wortsman2022model} via exploring various hyperparameter configurations.The Learned-Soup, a variant of model soups, significantly improves the performance but suffers from substantial memory and time costs due to the requirements of (i) having to load all fine-tuned models simultaneously, and (ii) a large computational graph encompassing all fine-tuned models. In this paper, we propose Memory Efficient Hyperplane Learned Soup (MEHL-Soup) to tackle this issue by formulating the learned soup as a hyperplane optimization problem and introducing block coordinate gradient descent to learn the mixing coefficients. At each iteration, MEHL-Soup only needs to load a few fine-tuned models and build a computational graph with one combined model. We further extend MEHL-Soup to MEHL-Soup+ in a layer-wise manner. Experimental results on various ViT models and data sets show that MEHL-Soup(+) outperforms Learned-Soup(+) in terms of test accuracy, and also reduces memory usage by more than $13\times$. Moreover, MEHL-Soup(+) can be run on a single GPU and achieves $9\times$ speed up in soup construction compared with the Learned-Soup. The code is released at https://github.com/nblt/MEHL-Soup.
- Abstract(参考訳): プレトレーニングと微調整が実践者の間で広く採用されている。
モデルスープ"~"\cite{wortsman2022model} によって、様々なハイパーパラメータ構成を探索することで、パフォーマンスを向上させることができる。
一 すべての細調整されたモデルを同時にロードしなければならないこと、
(ii)すべての微調整されたモデルを含む大きな計算グラフ。
本稿では,過平面最適化問題として学習スープを定式化し,混合係数を学習するためにブロック座標勾配勾配を導入することで,メモリ効率の高い過平面学習スープ(MEHL-Soup)を提案する。
各イテレーションにおいて、MEHL-Soupは、いくつかの微調整されたモデルをロードし、1つの組み合わせモデルで計算グラフを構築するだけでよい。
我々はさらにMEHL-SoupをMEHL-Soup+に階層的に拡張する。
様々なViTモデルとデータセットの実験結果から、MEHL-Soup(+)はテスト精度でLearred-Soup(+)より優れており、メモリ使用量は13ドル以上削減されている。
さらに、MEHL-Soup(+)は単一のGPU上で動作可能で、Learned-Soupと比較してスープ構成で9\times$のスピードアップを実現している。
コードはhttps://github.com/nblt/MEHL-Soup.comで公開されている。
関連論文リスト
- Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Graph Ladling: Shockingly Simple Parallel GNN Training without
Intermediate Communication [100.51884192970499]
GNNは、グラフを学習するニューラルネットワークの強力なファミリーである。
GNNのスケーリングは、肥大化または拡大によって、不健康な勾配、過度なスムースメント、情報のスカッシングといった問題に悩まされる。
本稿では,現在のGNNの深層化や拡張ではなく,GNNに適したモデルスープをデータ中心の視点で表現することを提案する。
論文 参考訳(メタデータ) (2023-06-18T03:33:46Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Model soups to increase inference without increasing compute time [0.0]
3つの異なるモデル(ResNet、ViT、EfficientNet)におけるModel Soupsのパフォーマンスの比較を行う。
次に、Pruned Soupと呼ばれる新しいSoup Recipeを紹介します。
スープの結果は、トレーニング済みのビジョントランスフォーマーの最高の個別モデルよりも優れていたが、ResNetやEfficientNetでは最悪だった。
論文 参考訳(メタデータ) (2023-01-24T15:59:07Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - PatrickStar: Parallel Training of Pre-trained Models via a Chunk-based
Memory Management [19.341284825473558]
事前訓練モデル(PTM)は、人工知能(AI)技術に革命をもたらす。
PTMは、膨大なテキスト上に汎用的な特徴を持つモデルを学び、タスク固有のデータセットを使用してモデルを微調整する。
PatrickStarは、異種メモリ空間を使用することで、コンピューティングプラットフォームのメモリ要求を減らす。
論文 参考訳(メタデータ) (2021-08-12T15:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。