論文の概要: Enhancing Training Efficiency Using Packing with Flash Attention
- arxiv url: http://arxiv.org/abs/2407.09105v1
- Date: Fri, 12 Jul 2024 09:10:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 00:07:20.469148
- Title: Enhancing Training Efficiency Using Packing with Flash Attention
- Title(参考訳): Flashアテンションによるパッケージングによるトレーニング効率の向上
- Authors: Achintya Kundu, Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti,
- Abstract要約: Hugging Face SFTトレーナーは、最大シーケンス長までの複数のトレーニング例を組み合わせるためにパッキングを使用するオプションを提供する。
私たちは、各例の適切な注意マスクで、パッキングとFlashアテンションを有効化し、分析し、このトレーニングパラダイムの利点を示します。
- 参考スコア(独自算出の注目度): 3.109884835316732
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. On the other hand, the Hugging Face SFT trainer offers the option to use packing to combine multiple training examples up to the maximum sequence length. This allows for maximal utilization of GPU resources. However, without proper masking of each packed training example, attention will not be computed correctly when using SFT trainer. We enable and then analyse packing and Flash Attention with proper attention masking of each example and show the benefits of this training paradigm.
- Abstract(参考訳): パディングは、各バッチの最長シーケンスの長さに合わせて、短いトレーニング例に特別なトークンを追加することで、LLMモデルのチューニングによく使用される。
これはバッチ処理の統一性を保証するが、計算に無関係なパディングトークンを含め、GPUリソースを浪費することで非効率を導入する。
一方、Hugging Face SFTトレーナーは、最大シーケンス長まで複数のトレーニング例を組み合わせるためにパッキングを使用するオプションを提供する。
これにより、GPUリソースの最大活用が可能になる。
しかし、各充填トレーニング例の適切なマスキングがなければ、SFTトレーナーを使用する場合、注意は正しく計算されない。
私たちは、各例の適切な注意マスクで、パッキングとFlashアテンションを有効化し、分析し、このトレーニングパラダイムの利点を示します。
関連論文リスト
- Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Refining Packing and Shuffling Strategies for Enhanced Performance in Generative Language Models [2.002276960776527]
シャッフルの最適原子径について検討し,その性能と効率を比較検討した。
その結果, 原子サイズとMSLとのマッチングにより, 両方のパッキング法の性能が最適化された。
このトレードオフは、トレーニング言語モデルにおけるパッキングメソッドの選択を通知する。
論文 参考訳(メタデータ) (2024-08-19T00:26:53Z) - Getting the most out of your tokenizer for pre-training and domain
adaptation [26.427537023771844]
トークン化器のサイズ,事前トークン化正規表現,およびトレーニングデータは,モデルの生成速度に大きな影響を及ぼすことを示す。
我々は,事前学習したLCMのトークン化を専門とし,生成速度と有効コンテキストサイズに大きな利得を得る。
論文 参考訳(メタデータ) (2024-02-01T21:49:34Z) - DynaPipe: Optimizing Multi-task Training through Dynamic Pipelines [15.332562681746081]
本稿では,シーケンス長の変動に対処し,マルチタスクモデルの効率的なトレーニングを実現するための動的マイクロバッチ手法を提案する。
動的プログラミングを用いたマイクロバッチ構築を最適化し、動的パイプラインと通信スケジューリングによるマイクロバッチ実行時間変動を処理する。
論文 参考訳(メタデータ) (2023-11-17T09:48:45Z) - Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。
本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。
我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文 参考訳(メタデータ) (2023-03-28T15:39:28Z) - Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T20:51:35Z) - On Batching Variable Size Inputs for Training End-to-End Speech
Enhancement Systems [1.5469452301122175]
ニューラルネットワークに基づく音声強調システムの性能はモデルアーキテクチャの影響を受けている。
計算リソースの利用は、主にバッチサイズなどのトレーニングパラメータの影響を受けます。
論文 参考訳(メタデータ) (2023-01-25T13:45:02Z) - Exploring the Limits of Differentially Private Deep Learning with
Group-wise Clipping [91.60608388479645]
本研究では, クリッピングとバックプロパゲーションを併用して, 異なる最適化手法でクリッピングを行えることを示す。
その結果、プライベートな学習は、記憶効率が良く、トレーニング更新あたりの速度は、多くの関心を持つ非プライベートな学習と同程度になる。
論文 参考訳(メタデータ) (2022-12-03T05:20:15Z) - Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。
この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。
本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文 参考訳(メタデータ) (2021-07-02T14:37:13Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - FPRaker: A Processing Element For Accelerating Neural Network Training [3.249681609416566]
トレーニングアクセラレータを構成するための処理要素であるFPRakerを紹介する。
FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。
論文 参考訳(メタデータ) (2020-10-15T23:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。