論文の概要: Refining Packing and Shuffling Strategies for Enhanced Performance in Generative Language Models
- arxiv url: http://arxiv.org/abs/2408.09621v1
- Date: Mon, 19 Aug 2024 00:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 18:03:47.215981
- Title: Refining Packing and Shuffling Strategies for Enhanced Performance in Generative Language Models
- Title(参考訳): 生成言語モデルの性能向上のための精製パッケージングとシャッフル戦略
- Authors: Yanbing Chen, Ruilin Wang, Zihao Yang, Lavender Yao Jiang, Eric Karl Oermann,
- Abstract要約: シャッフルの最適原子径について検討し,その性能と効率を比較検討した。
その結果, 原子サイズとMSLとのマッチングにより, 両方のパッキング法の性能が最適化された。
このトレードオフは、トレーニング言語モデルにおけるパッキングメソッドの選択を通知する。
- 参考スコア(独自算出の注目度): 2.002276960776527
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Packing and shuffling tokens is a common practice in training auto-regressive language models (LMs) to prevent overfitting and improve efficiency. Typically documents are concatenated to chunks of maximum sequence length (MSL) and then shuffled. However setting the atom size, the length for each data chunk accompanied by random shuffling, to MSL may lead to contextual incoherence due to tokens from different documents being packed into the same chunk. An alternative approach is to utilize padding, another common data packing strategy, to avoid contextual incoherence by only including one document in each shuffled chunk. To optimize both packing strategies (concatenation vs padding), we investigated the optimal atom size for shuffling and compared their performance and efficiency. We found that matching atom size to MSL optimizes performance for both packing methods (concatenation and padding), and padding yields lower final perplexity (higher performance) than concatenation at the cost of more training steps and lower compute efficiency. This trade-off informs the choice of packing methods in training language models.
- Abstract(参考訳): トークンのパッケージングとシャッフルは、過度に適合し効率を向上させるために自動回帰言語モデル(LM)を訓練する一般的な方法である。
通常、文書は最大シーケンス長(MSL)のチャンクに連結され、シャッフルされる。
しかし、ランダムシャッフルを伴う各データチャンクの原子サイズをMSLに設定すると、異なる文書からのトークンが同じチャンクに詰め込まれているため、コンテキスト的不整合が発生する可能性がある。
別のアプローチとして、別の一般的なデータパッキング戦略であるパディングを利用することで、シャッフルチャンクに1つのドキュメントだけを含めることで、コンテキスト的不整合を回避することができる。
本研究は, 充填法と充填法の両方を最適化するため, シャッフルの最適原子径について検討し, その性能と効率を比較検討した。
その結果,MSLに適合する原子径は,パッキング法(連結法とパディング法)の性能を最適化し,パディングにより,より多くのトレーニングステップのコストと計算効率の低下により,結合よりも最終難易度(高い性能)が低下することが判明した。
このトレードオフは、トレーニング言語モデルにおけるパッキングメソッドの選択を通知する。
関連論文リスト
- Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - Packing Analysis: Packing Is More Appropriate for Large Models or Datasets in Supervised Fine-tuning [28.38312460468955]
Packingは、異なるトレーニングシーケンスを組み合わせて、モデルの最大入力長に適合させることで、ハードウェアリソース効率を最大化する最適化技術である。
本稿では,69Kから1.2Mのデータセットと8Bから70Bのモデルを対象として,パディングとパッキングを用いたSFT法の比較を行った。
これは、パッキング対パディングの利点と制限に関する最初の包括的な分析と、さまざまなトレーニングシナリオでパッキングを実装するための実践的な考慮を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:25:34Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - Bucket Pre-training is All You Need [9.332544709626875]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。
文書の連結と分割を伴う事前学習のための従来の固定長データ合成戦略は、ノイズを導入し、長距離依存関係をキャプチャするモデルの能力を制限できる。
固定長のパラダイムを超えて,より柔軟で効率的な事前学習手法を提供するマルチポケットデータ合成手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:27:23Z) - Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - Fewer Truncations Improve Language Modeling [83.36487756187594]
大規模な言語モデルトレーニングでは、入力文書は一般的に幻覚化され、同じ長さのシーケンスに分割されて、パディングトークンを避ける。
文書を長さ適応型最適化によってトレーニングシーケンスにまとめる,スケーラブルで効率的な手法であるBest-fit Packingを提案する。
本手法は,連結と同じ訓練効率を維持しつつ,不要な切り離しを完全に除去する。
論文 参考訳(メタデータ) (2024-04-16T18:08:29Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - CoLLiE: Collaborative Training of Large Language Models in an Efficient
Way [59.09824823710863]
CoLLiEは、大規模な言語モデルの協調トレーニングを容易にする効率的なライブラリである。
モジュール設計と包括的な機能により、CoLLiEは効率性、使いやすさ、カスタマイズのバランスのとれたブレンドを提供する。
論文 参考訳(メタデータ) (2023-12-01T08:02:16Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。