Fugu-MT 論文翻訳(概要): Enhancing Training Efficiency Using Packing with Flash Attention

論文の概要: Enhancing Training Efficiency Using Packing with Flash Attention

arxiv url: http://arxiv.org/abs/2407.09105v4
Date: Tue, 30 Jul 2024 02:06:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 12:29:44.510951
Title: Enhancing Training Efficiency Using Packing with Flash Attention
Title（参考訳）: Flashアテンションによるパッケージングによるトレーニング効率の向上
Authors: Achintya Kundu, Rhui Dih Lee, Laura Wynter, Raghu Kiran Ganti, Mayank Mishra,
Abstract要約: Hugging Face SFTトレーナーは、パッキングを使って複数のトレーニング例を組み合わせるオプションを常に提供してきた。これまでのところ、各満員のトレーニング例の適切なマスキングは提供されなかった。この機能はHugging Face Transformers 4.43に追加された。
参考スコア（独自算出の注目度）: 6.7474593769223485
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Padding is often used in tuning LLM models by adding special tokens to shorter training examples to match the length of the longest sequence in each batch. While this ensures uniformity for batch processing, it introduces inefficiencies by including irrelevant padding tokens in the computation and wastes GPU resources. Hugging Face SFT trainer has always offered the option to use packing to combine multiple training examples, allowing for maximal utilization of GPU resources. However, up till now, it did not offer proper masking of each packed training example. This capability has now been added to Hugging Face Transformers 4.43. We analyse this new feature and show the benefits across different variations of packing.
Abstract（参考訳）: パディングは、各バッチの最長シーケンスの長さに合わせて、短いトレーニング例に特別なトークンを追加することで、LLMモデルのチューニングによく使用される。これはバッチ処理の統一性を保証するが、計算に無関係なパディングトークンを含め、GPUリソースを浪費することで非効率を導入する。 Hugging Face SFTトレーナーは常に、パッキングを使用して複数のトレーニング例を組み合わせるオプションを提供しており、GPUリソースの最大利用を可能にしている。しかし、これまでは各満員のトレーニング例の適切なマスキングを提供していなかった。この機能はHugging Face Transformers 4.43に追加された。この新機能を解析し、さまざまな種類のパッキングにまたがるメリットを示します。

関連論文リスト

Training Long-Context LLMs Efficiently via Chunk-wise Optimization [60.05884946552877]
textitSequential Chunk-wise Optimization (SeCO) は、長い入力を管理可能なチャンクに分割するメモリ効率の訓練パラダイムである。 textitSparse Chunk-wise Optimization (SpaCO)を導入し、特定のチャンクへの勾配を選択的に伝播することで計算オーバーヘッドを削減する。 SpaCOは、コンテキスト長からバックプロパゲーションの計算コストを分離し、シーケンスが長くなるにつれて、トレーニング時間が徐々に推論時間に収束することを可能にする。
論文参考訳（メタデータ） (2025-05-22T14:11:34Z)
Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM [49.2709992932292]
長期コンテキスト大規模言語モデル(LLM)のトレーニングは、長期コンテキストと短コンテキストデータによるハイブリッドトレーニングが、ワークロードの不均衡につながることが多いため、難しい。既存の作業では、主にデータパッキングを使用してこの問題を軽減するが、不均衡な注意計算や通信オーバーヘッドの無駄を考慮できない。本稿では,これらの非効率性に対処する新しいバッチ構築法とトレーニングレシピを設計する階層的バランスパッキング(HBP)を提案する。
論文参考訳（メタデータ） (2025-03-10T10:52:50Z)
Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文参考訳（メタデータ） (2024-10-14T12:35:12Z)
Refining Packing and Shuffling Strategies for Enhanced Performance in Generative Language Models [2.002276960776527]
シャッフルの最適原子径について検討し,その性能と効率を比較検討した。その結果, 原子サイズとMSLとのマッチングにより, 両方のパッキング法の性能が最適化された。このトレードオフは、トレーニング言語モデルにおけるパッキングメソッドの選択を通知する。
論文参考訳（メタデータ） (2024-08-19T00:26:53Z)
Getting the most out of your tokenizer for pre-training and domain adaptation [26.427537023771844]
トークン化器のサイズ,事前トークン化正規表現,およびトレーニングデータは,モデルの生成速度に大きな影響を及ぼすことを示す。我々は,事前学習したLCMのトークン化を専門とし,生成速度と有効コンテキストサイズに大きな利得を得る。
論文参考訳（メタデータ） (2024-02-01T21:49:34Z)
DynaPipe: Optimizing Multi-task Training through Dynamic Pipelines [15.332562681746081]
本稿では,シーケンス長の変動に対処し,マルチタスクモデルの効率的なトレーニングを実現するための動的マイクロバッチ手法を提案する。動的プログラミングを用いたマイクロバッチ構築を最適化し、動的パイプラインと通信スケジューリングによるマイクロバッチ実行時間変動を処理する。
論文参考訳（メタデータ） (2023-11-17T09:48:45Z)
Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。 MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文参考訳（メタデータ） (2023-06-12T18:12:19Z)
Unmasked Teacher: Towards Training-Efficient Video Foundation Models [50.19560876891811]
ビデオファウンデーションモデル(VFM)は、高い計算コストとデータ不足のため、限られた探索を受けている。本稿では,既存の手法の利点を生かした時間感応型VFMの訓練効率向上手法を提案する。我々のモデルは、シーン関連、時間関連、複雑なビデオ言語理解を含む様々なタスクを処理できる。
論文参考訳（メタデータ） (2023-03-28T15:39:28Z)
Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-26T20:51:35Z)
On Batching Variable Size Inputs for Training End-to-End Speech Enhancement Systems [1.5469452301122175]
ニューラルネットワークに基づく音声強調システムの性能はモデルアーキテクチャの影響を受けている。計算リソースの利用は、主にバッチサイズなどのトレーニングパラメータの影響を受けます。
論文参考訳（メタデータ） (2023-01-25T13:45:02Z)
Exploring the Limits of Differentially Private Deep Learning with Group-wise Clipping [91.60608388479645]
本研究では, クリッピングとバックプロパゲーションを併用して, 異なる最適化手法でクリッピングを行えることを示す。その結果、プライベートな学習は、記憶効率が良く、トレーニング更新あたりの速度は、多くの関心を持つ非プライベートな学習と同程度になる。
論文参考訳（メタデータ） (2022-12-03T05:20:15Z)
Memory Efficient Meta-Learning with Large Images [62.70515410249566]
数ショットの分類に対するメタ学習アプローチは、新しいタスクを学ぶために、ほんの数ステップの最適化やシングルフォワードパスを必要とするテスト時に計算的に効率的である。この制限は、最大1000のイメージを含むタスクの全体サポートセットが、最適化ステップを取る前に処理されなければならないために生じる。本稿では,1つのGPU上の大容量画像からなる大規模タスクのメタトレーニングを可能にする,汎用的でメモリ効率の良いエピソード・トレーニング手法であるLITEを提案する。
論文参考訳（メタデータ） (2021-07-02T14:37:13Z)
Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。 diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文参考訳（メタデータ） (2020-12-14T12:34:01Z)
FPRaker: A Processing Element For Accelerating Neural Network Training [3.249681609416566]
トレーニングアクセラレータを構成するための処理要素であるFPRakerを紹介する。 FPRakerは複数の浮動小数点乗算演算を同時に処理し、その結果を高い精度の累積器に蓄積する。
論文参考訳（メタデータ） (2020-10-15T23:24:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。