論文の概要: CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way
- arxiv url: http://arxiv.org/abs/2312.00407v1
- Date: Fri, 1 Dec 2023 08:02:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:16:37.209801
- Title: CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way
- Title(参考訳): CoLLiE: 大規模言語モデルの効率的な学習
- Authors: Kai Lv, Shuo Zhang, Tianle Gu, Shuhao Xing, Jiawei Hong, Keyu Chen,
Xiaoran Liu, Yuqing Yang, Honglin Guo, Tengxiao Liu, Yu Sun, Qipeng Guo, Hang
Yan, Xipeng Qiu
- Abstract要約: CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
- 参考スコア(独自算出の注目度): 59.09824823710863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly pivotal in a wide range of
natural language processing tasks. Access to pre-trained models, courtesy of
the open-source community, has made it possible to adapt these models to
specific applications for enhanced performance. However, the substantial
resources required for training these models necessitate efficient solutions.
This paper introduces CoLLiE, an efficient library that facilitates
collaborative training of large language models using 3D parallelism,
parameter-efficient fine-tuning (PEFT) methods, and optimizers such as Lion,
Adan, Sophia, LOMO and AdaLomo. With its modular design and comprehensive
functionality, CoLLiE offers a balanced blend of efficiency, ease of use, and
customization. CoLLiE has proven superior training efficiency in comparison
with prevalent solutions in pre-training and fine-tuning scenarios.
Furthermore, we provide an empirical evaluation of the correlation between
model size and GPU memory consumption under different optimization methods, as
well as an analysis of the throughput. Lastly, we carry out a comprehensive
comparison of various optimizers and PEFT methods within the instruction-tuning
context. CoLLiE is available at https://github.com/OpenLMLab/collie.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいてますます重要になっている。
オープンソースコミュニティによる事前学習されたモデルへのアクセスにより、これらのモデルを特定のアプリケーションに適用してパフォーマンスを向上させることが可能になった。
しかし、これらのモデルのトレーニングに必要なかなりのリソースは、効率的なソリューションを必要とします。
本稿では,3次元並列処理を用いた大規模言語モデルの協調学習,パラメータ効率向上(peft)手法,ライオン,アダン,ソフィア,ロモ,アダロモなどの最適化を行うための効率的なライブラリであるcollieを紹介する。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
CoLLiEは、事前トレーニングと微調整のシナリオにおける一般的なソリューションと比較して、優れたトレーニング効率を証明している。
さらに,異なる最適化手法によるモデルサイズとgpuメモリ消費量の相関関係の実証評価を行い,スループットの分析を行った。
最後に,命令調整コンテキストにおいて,様々な最適化手法とPEFT手法の総合的な比較を行う。
CoLLiEはhttps://github.com/OpenLMLab/collie.comで入手できる。
関連論文リスト
- EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Bucket Pre-training is All You Need [9.332544709626875]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。
文書の連結と分割を伴う事前学習のための従来の固定長データ合成戦略は、ノイズを導入し、長距離依存関係をキャプチャするモデルの能力を制限できる。
固定長のパラダイムを超えて,より柔軟で効率的な事前学習手法を提供するマルチポケットデータ合成手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:27:23Z) - MIREncoder: Multi-modal IR-based Pretrained Embeddings for Performance Optimizations [6.919817502555546]
本稿では,Multi-modal IRベースのオートエンコーダであるMIREncoderを提案する。
マルチモーダルなアプローチにより、コンパイル可能なプログラムからより優れた特徴を抽出できる。
評価の結果,提案手法はオーバヘッドを低減しつつ,技術状況より優れることが示された。
論文 参考訳(メタデータ) (2024-07-02T13:00:19Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Efficient Parallelization Layouts for Large-Scale Distributed Model Training [17.16249954009967]
本研究では,大規模言語モデルのトレーニング構成に関する総合的研究を行う。
マイクロバッチサイズを1にすることで,トレーニングレイアウトの効率が向上するのが普通だ。
最も効率的な構成により、さまざまなモデルサイズに対して最先端のトレーニング効率を達成できます。
論文 参考訳(メタデータ) (2023-11-09T18:59:38Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。
また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。
50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2021-09-22T00:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。