論文の概要: DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing
- arxiv url: http://arxiv.org/abs/2212.03597v1
- Date: Wed, 7 Dec 2022 12:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:11:35.188515
- Title: DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing
- Title(参考訳): deepspeed data efficiency: 効率的なデータサンプリングとルーティングによるディープラーニングモデルの品質とトレーニング効率の向上
- Authors: Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He
- Abstract要約: DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。
カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。
GPT-3 1.3B と BERT-Large 言語モデルの事前学習にソリューションを適用することで、2倍少ないデータと2倍の時間で同様のモデル品質を実現することができる。
- 参考スコア(独自算出の注目度): 31.719905773863562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances on deep learning models come at the price of formidable
training cost. The increasing model size is one of the root cause, but another
less-emphasized fact is that data scale is actually increasing at a similar
speed as model scale, and the training cost is proportional to both of them.
Compared to the rapidly evolving model architecture, how to efficiently use the
training data (especially for the expensive foundation model pertaining) is
both less explored and difficult to realize due to the lack of a convenient
framework that focus on data efficiency capabilities. To this end, we present
DeepSpeed Data Efficiency library, a framework that makes better use of data,
increases training efficiency, and improves model quality. Specifically, it
provides efficient data sampling via curriculum learning, and efficient data
routing via random layerwise token dropping. DeepSpeed Data Efficiency takes
extensibility, flexibility and composability into consideration, so that users
can easily utilize the framework to compose multiple techniques and apply
customized strategies. By applying our solution to GPT-3 1.3B and BERT-Large
language model pretraining, we can achieve similar model quality with up to 2x
less data and 2x less time, or achieve better model quality under similar
amount of data and time.
- Abstract(参考訳): ディープラーニングモデルの最近の進歩は、厳しいトレーニングコストを犠牲にしている。
モデルサイズの増加が根本原因の1つだが、もう1つの強調されていない事実は、データスケールが実際にモデルスケールと同じ速度で増加しており、トレーニングコストが両者に比例していることである。
急速に進化するモデルアーキテクチャと比較して、トレーニングデータ(特に高価な基礎モデル)を効率的に利用する方法は、データ効率能力に重点を置く便利なフレームワークが欠如しているため、調査が小さく、実現が困難である。
この目的のために,より優れたデータ利用,トレーニング効率の向上,モデル品質向上のためのフレームワークであるDeepSpeed Data Efficiencyライブラリを提案する。
具体的には、カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。
deepspeed data efficiencyは拡張性、柔軟性、構成性を考慮しており、ユーザーはフレームワークを簡単に利用して複数のテクニックを組み立て、カスタマイズされた戦略を適用することができる。
GPT-3 1.3B と BERT-Large 言語モデル事前学習にソリューションを適用することで、データ量と時間量で最大2倍の時間と2倍の時間で類似したモデル品質を実現することができる。
関連論文リスト
- Efficient Federated Learning Using Dynamic Update and Adaptive Pruning with Momentum on Shared Server Data [59.6985168241067]
フェデレートラーニング(FL)は、低トレーニング効率と限られた計算資源の2つの重要な問題に遭遇する。
本稿では,サーバ上の共有不感データとエッジデバイスの分散データを活用するための新しいFLフレームワークであるFedDUMAPを提案する。
提案するFLモデルであるFedDUMAPは,従来の3つの手法を組み合わせることで,ベースラインアプローチと比較して性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-08-11T02:59:11Z) - AutoScale: Automatic Prediction of Compute-optimal Data Composition for Training LLMs [61.13296177652599]
本稿では,異なる領域からのトレーニングデータの最適構成がスケール依存であることを示す。
我々は、潜在的に大規模なトレーニングデータスケールでデータ合成を最適化するための、新しい実用的なアプローチである*AutoScale*を紹介します。
GPT-2Large and BERT pre-training の評価は,トレーニング収束性および下流性能向上における *AutoScale* の有効性を示す。
論文 参考訳(メタデータ) (2024-07-29T17:06:30Z) - Rephrasing the Web: A Recipe for Compute and Data-Efficient Language
Modeling [27.975832264345772]
本稿では,Web上の文書をパラフレーズ化するために,既製の命令調整モデルを用いたWeb Rephrase Augmented Pre-training(textbfWRAP$)を提案する。
自然にノイズの多いC4データセットでWRAPを使用することで、プリトレーニングを$sim3x$で高速化する。
同じトレーニング済みの計算予算で、Pileのさまざまなサブセットで平均して10%以上のパープレキシティを改善し、13のタスクでゼロショットの質問応答精度を2%以上改善する。
論文 参考訳(メタデータ) (2024-01-29T18:19:08Z) - Effective pruning of web-scale datasets based on complexity of concept
clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。
高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。
我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文 参考訳(メタデータ) (2024-01-09T14:32:24Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - D4: Improving LLM Pretraining via Document De-Duplication and
Diversification [38.84592304799403]
事前訓練されたモデル埋め込みによる慎重なデータ選択は、トレーニングをスピードアップできることを示す。
また、データ繰り返しがベースライントレーニングよりインテリジェントに優れていることも示しています。
論文 参考訳(メタデータ) (2023-08-23T17:58:14Z) - Recommendation Unlearning via Influence Function [42.4931807753579]
本稿では,新しいインフルエンス関数に基づく推薦アンラーニング(IFRU, Recommendation Unlearning)フレームワークを提案する。
IFRUは、フルリトレーニングに匹敵するレコメンデーションパフォーマンスを持つリトレーニングベースの手法と比較して、250倍以上のアクセラレーションを実現している。
論文 参考訳(メタデータ) (2023-07-05T09:42:51Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。