Fugu-MT 論文翻訳(概要): Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum

論文の概要: Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum

arxiv url: http://arxiv.org/abs/2405.13226v1
Date: Tue, 21 May 2024 22:26:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 01:53:42.523146
Title: Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum
Title（参考訳）: Dataset Decomposition: 可変列長カリキュラムによる高速LCMトレーニング
Authors: Hadi Pouransari, Chun-Liang Li, Jen-Hao Rick Chang, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Oncel Tuzel,
Abstract要約: 本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
参考スコア（独自算出の注目度）: 30.46329559544246
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are commonly trained on datasets consisting of fixed-length token sequences. These datasets are created by randomly concatenating documents of various lengths and then chunking them into sequences of a predetermined target length. However, this method of concatenation can lead to cross-document attention within a sequence, which is neither a desirable learning signal nor computationally efficient. Additionally, training on long sequences becomes computationally prohibitive due to the quadratic cost of attention. In this study, we introduce dataset decomposition, a novel variable sequence length training technique, to tackle these challenges. We decompose a dataset into a union of buckets, each containing sequences of the same size extracted from a unique document. During training, we use variable sequence length and batch size, sampling simultaneously from all buckets with a curriculum. In contrast to the concat-and-chunk baseline, which incurs a fixed attention cost at every step of training, our proposed method incurs a penalty proportional to the actual document lengths at each step, resulting in significant savings in training time. We train an 8k context-length 1B model at the same cost as a 2k context-length model trained with the baseline approach. Experiments on a web-scale corpus demonstrate that our approach significantly enhances performance on standard language evaluations and long-context benchmarks, reaching target accuracy 3x faster compared to the baseline. Our method not only enables efficient pretraining on long sequences but also scales effectively with dataset size. Lastly, we shed light on a critical yet less studied aspect of training large language models: the distribution and curriculum of sequence lengths, which results in a non-negligible difference in performance.
Abstract（参考訳）: 大規模言語モデル(LLM)は、固定長トークンシーケンスからなるデータセットで一般的に訓練される。これらのデータセットは、様々な長さの文書をランダムに連結し、所定のターゲット長のシーケンスに分類することで生成される。しかし、この結合方式は、望ましい学習信号でも、計算効率でもなければ、シーケンス内のクロスドキュメントの注意を惹きつける可能性がある。さらに、注意の2次コストのため、長いシーケンスのトレーニングは計算的に禁止される。本研究では,これらの課題に対処するために,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。データセットをバケットの結合に分解し、それぞれがユニークなドキュメントから抽出された同じサイズのシーケンスを含む。トレーニング中、可変シーケンス長とバッチサイズを使用し、カリキュラムですべてのバケットから同時にサンプリングします。トレーニングの各ステップで一定の注意コストを発生させるConcat-and-chunkベースラインとは対照的に,提案手法は各ステップの実際の文書長に比例してペナルティを発生させ,トレーニング時間を大幅に短縮する。ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。ウェブスケールコーパスの実験により,本手法は標準言語評価と長文ベンチマークの性能を大幅に向上させ,ベースラインに比べて目標精度を3倍に向上させることを示した。提案手法は,長い列の事前学習を効果的に行うだけでなく,データセットサイズで効果的にスケールすることができる。最後に、我々は、大規模言語モデルのトレーニングにおいて、重要かつあまり研究されていない側面、すなわちシーケンス長の分布とカリキュラムに光を当てた。

関連論文リスト

Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM [49.2709992932292]
長期コンテキスト大規模言語モデル(LLM)のトレーニングは、長期コンテキストと短コンテキストデータによるハイブリッドトレーニングが、ワークロードの不均衡につながることが多いため、難しい。既存の作業では、主にデータパッキングを使用してこの問題を軽減するが、不均衡な注意計算や通信オーバーヘッドの無駄を考慮できない。本稿では,これらの非効率性に対処する新しいバッチ構築法とトレーニングレシピを設計する階層的バランスパッキング(HBP)を提案する。
論文参考訳（メタデータ） (2025-03-10T10:52:50Z)
How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。 ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文参考訳（メタデータ） (2024-10-03T16:46:52Z)
Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文参考訳（メタデータ） (2024-07-20T21:24:40Z)
Bucket Pre-training is All You Need [9.332544709626875]
大規模言語モデル (LLM) は様々な自然言語処理タスクにおいて例外的な性能を示した。文書の連結と分割を伴う事前学習のための従来の固定長データ合成戦略は、ノイズを導入し、長距離依存関係をキャプチャするモデルの能力を制限できる。固定長のパラダイムを超えて,より柔軟で効率的な事前学習手法を提供するマルチポケットデータ合成手法を提案する。
論文参考訳（メタデータ） (2024-07-10T09:27:23Z)
Equipping Transformer with Random-Access Reading for Long-Context Understanding [9.433800833564279]
長文モデリングはトランスフォーマーに基づく大規模言語モデルにとって重要な課題である。本稿では,全てのトークンを検査することなく,変換器が効率よく長い文書を処理できる新しい読解戦略を提案する。
論文参考訳（メタデータ） (2024-05-21T21:41:07Z)
LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。我々はSelf-Instructを使って長い命令追従データセットを構築した。我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文参考訳（メタデータ） (2024-01-31T18:29:39Z)
E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文参考訳（メタデータ） (2024-01-13T02:11:20Z)
Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文参考訳（メタデータ） (2023-09-27T21:41:49Z)
DeepSpeed Ulysses: System Optimizations for Enabling Training of Extreme Long Sequence Transformer Models [34.74093040678323]
我々は,高度に効率的かつスケーラブルなLDMトレーニングを実現するための,新しい,ポータブルで効果的な方法論であるDeepSpeed-Ulyssesを紹介した。 DeepSpeed-Ulyssesは、そのコアでシーケンス次元に沿って入力データを分割し、効率的なオール・ツー・オールの集合通信を用いて注意を払っている。実験の結果、DeepSpeed-Ulyssesは既存のSOTAベースラインの4倍のシーケンス長で2.5倍高速であることがわかった。
論文参考訳（メタデータ） (2023-09-25T20:15:57Z)
PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。 PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。 2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文参考訳（メタデータ） (2023-09-19T08:03:38Z)
Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文参考訳（メタデータ） (2023-01-22T18:22:55Z)
Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文参考訳（メタデータ） (2022-09-21T00:41:07Z)
Sequence Length is a Domain: Length-based Overfitting in Transformer Models [0.0]
機械翻訳において、ニューラルベースシステムは、前回のフレーズベースの翻訳アプローチと比較して非常に長いシーケンスでより良く動作する。実験結果から, 実験結果から得られた実験結果から, 観測結果の減少は, 入力シーケンスの長さではなく, 学習中のモデルで見られる長さに対応する仮説長が原因であることが示唆された。
論文参考訳（メタデータ） (2021-09-15T13:25:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。