論文の概要: Enhancing Training Efficiency Using Packing with Flash Attention
- arxiv url: http://arxiv.org/abs/2407.09105v4
- Date: Tue, 30 Jul 2024 02:06:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 12:29:44.510951
- Title: Enhancing Training Efficiency Using Packing with Flash Attention
- Title(参考訳): Flashアテンションによるパッケージングによるトレーニング効率の向上
- Authors: Achintya Kundu, Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti, Mayank Mishra,
- Abstract要約: Hugging Face SFTトレーナーは、パッキングを使って複数のトレーニング例を組み合わせるオプションを常に提供してきた。
これまでのところ、各満員のトレーニング例の適切なマスキングは提供されなかった。
この機能はHugging Face Transformers 4.43に追加された。
- 参考スコア(独自算出の注目度): 6.7474593769223485
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. Hugging Face SFT trainer has always offered the option to use packing to combine multiple training examples, allowing for maximal utilization of GPU resources. However, up till now, it did not offer proper masking of each packed training example. This capability has now been added to Hugging Face Transformers 4.43. We analyse this new feature and show the benefits across different variations of packing.
- Abstract(参考訳): パディングは、各バッチの最長シーケンスの長さに合わせて、短いトレーニング例に特別なトークンを追加することで、LLMモデルのチューニングによく使用される。
これはバッチ処理の統一性を保証するが、計算に無関係なパディングトークンを含め、GPUリソースを浪費することで非効率を導入する。
Hugging Face SFTトレーナーは常に、パッキングを使用して複数のトレーニング例を組み合わせるオプションを提供しており、GPUリソースの最大利用を可能にしている。
しかし、これまでは各満員のトレーニング例の適切なマスキングを提供していなかった。
この機能はHugging Face Transformers 4.43に追加された。
この新機能を解析し、さまざまな種類のパッキングにまたがるメリットを示します。
関連論文リスト
- Random Masking Finds Winning Tickets for Parameter Efficient Fine-tuning [17.638387297838936]
微調整の大きな言語モデル(LLM)はコストがかかる。
PEFTはパラメータのごく一部をトレーニングすることでこの問題に対処し、その成功は事前訓練されたモデルの表現性と柔軟性を明らかにする。
本稿では,PEFTの限界について検討し,その設計をさらに単純化し,標準設定を超えてトレーニング可能なパラメータの数を削減した。
予測される学習率が大きいと、ランダムマスキングはトレーニング可能なパラメータを少なくして、様々なタスクにおける標準PEFTアルゴリズムの性能と一致させることができる。
論文 参考訳(メタデータ) (2024-05-04T07:44:18Z) - Learning Tracking Representations from Single Point Annotations [49.47550029470299]
本稿では,単一点アノテーションから追跡表現を弱教師付きで学習することを提案する。
具体的には,エンド・ツー・エンド・エンド・コントラスト学習に先立って,対象対象対象性を取り入れたソフトコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:50:58Z) - Getting the most out of your tokenizer for pre-training and domain
adaptation [26.427537023771844]
トークン化器のサイズ,事前トークン化正規表現,およびトレーニングデータは,モデルの生成速度に大きな影響を及ぼすことを示す。
我々は,事前学習したLCMのトークン化を専門とし,生成速度と有効コンテキストサイズに大きな利得を得る。
論文 参考訳(メタデータ) (2024-02-01T21:49:34Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T20:51:35Z) - On Batching Variable Size Inputs for Training End-to-End Speech
Enhancement Systems [1.5469452301122175]
ニューラルネットワークに基づく音声強調システムの性能はモデルアーキテクチャの影響を受けている。
計算リソースの利用は、主にバッチサイズなどのトレーニングパラメータの影響を受けます。
論文 参考訳(メタデータ) (2023-01-25T13:45:02Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z) - Scaling Language-Image Pre-training via Masking [63.36988191660858]
高速言語画像事前学習(FLIP)は、CLIPを訓練するためのシンプルで効率的な方法である。
マスキングによって、同じウォールタイム時間で、より多くの画像テキストペアから学ぶことができます。
FLIPは、同じデータでトレーニングされたCLIPよりも圧倒的に優れています。
論文 参考訳(メタデータ) (2022-12-01T18:59:57Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z) - FPRaker: A Processing Element For Accelerating Neural Network Training [3.249681609416566]
トレーニングアクセラレータを構成するための処理要素であるFPRakerを紹介する。
FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。
論文 参考訳(メタデータ) (2020-10-15T23:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。