論文の概要: Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM
- arxiv url: http://arxiv.org/abs/2503.07680v1
- Date: Mon, 10 Mar 2025 10:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:25.621568
- Title: Hierarchical Balance Packing: Towards Efficient Supervised Fine-tuning for Long-Context LLM
- Title(参考訳): 階層的バランス・パッキング:長期LLMのための高効率化された微調整を目指して
- Authors: Yongqiang Yao, Jingru Tan, Kaihuan Liang, Feizhao Zhang, Yazhe Niu, Jiahao Hu, Ruihao Gong, Dahua Lin, Ningyi Xu,
- Abstract要約: 長期コンテキスト大規模言語モデル(LLM)のトレーニングは、長期コンテキストと短コンテキストデータによるハイブリッドトレーニングが、ワークロードの不均衡につながることが多いため、難しい。
既存の作業では、主にデータパッキングを使用してこの問題を軽減するが、不均衡な注意計算や通信オーバーヘッドの無駄を考慮できない。
本稿では,これらの非効率性に対処する新しいバッチ構築法とトレーニングレシピを設計する階層的バランスパッキング(HBP)を提案する。
- 参考スコア(独自算出の注目度): 45.510445021130685
- License:
- Abstract: Training Long-Context Large Language Models (LLMs) is challenging, as hybrid training with long-context and short-context data often leads to workload imbalances. Existing works mainly use data packing to alleviate this issue but fail to consider imbalanced attention computation and wasted communication overhead. This paper proposes Hierarchical Balance Packing (HBP), which designs a novel batch-construction method and training recipe to address those inefficiencies. In particular, the HBP constructs multi-level data packing groups, each optimized with a distinct packing length. It assigns training samples to their optimal groups and configures each group with the most effective settings, including sequential parallelism degree and gradient checkpointing configuration. To effectively utilize multi-level groups of data, we design a dynamic training pipeline specifically tailored to HBP, including curriculum learning, adaptive sequential parallelism, and stable loss. Our extensive experiments demonstrate that our method significantly reduces training time over multiple datasets and open-source models while maintaining strong performance. For the largest DeepSeek-V2 (236B) MOE model, our method speeds up the training by 2.4$\times$ with competitive performance.
- Abstract(参考訳): 長期コンテキスト大規模言語モデル(LLM)のトレーニングは、長期コンテキストと短コンテキストデータによるハイブリッドトレーニングが、ワークロードの不均衡につながることが多いため、難しい。
既存の作業では、主にデータパッキングを使用してこの問題を軽減するが、不均衡な注意計算や通信オーバーヘッドの無駄を考慮できない。
本稿では,これらの非効率性に対処する新しいバッチ構築法とトレーニングレシピを設計する階層的バランスパッキング(HBP)を提案する。
特に、HBPは複数のレベルのデータパッキンググループを構築し、それぞれが異なるパッキング長さで最適化されている。
トレーニングサンプルを最適なグループに割り当て、逐次並列度や勾配チェックポイントの設定など、最も効果的な設定で各グループを構成する。
マルチレベルのデータ群を効果的に活用するために,カリキュラム学習,適応的逐次並列性,安定した損失を含む,HBPに適した動的トレーニングパイプラインを設計する。
提案手法は,複数のデータセットおよびオープンソースモデル上でのトレーニング時間を著しく短縮し,高い性能を維持しながら,その訓練時間を著しく短縮することを示す。
最大のDeepSeek-V2 (236B) MOEモデルでは、競合性能を持つ2.4$\times$でトレーニングを高速化する。
関連論文リスト
- Ensembles of Low-Rank Expert Adapters [9.599957499802446]
本稿では,多種多様なタスクを扱うモデルの能力を向上させるために,低ランクエキスパートアダプタ(ELREA)フレームワークの組み立てを提案する。
ELREAは、トレーニング指示をその勾配方向に基づいてクラスタ化し、さまざまな専門分野を表現している。
推論中、ELREAは、入力データの勾配とトレーニングクラスタとの類似性に基づいて、最も関連する専門家アダプタからの予測を組み合わせる。
論文 参考訳(メタデータ) (2025-01-31T18:07:21Z) - Optimizing Pretraining Data Mixtures with LLM-Estimated Utility [52.08428597962423]
大規模な言語モデルは、高品質なトレーニングデータの増加によって改善される。
トークンカウントは手動と学習の混合よりも優れており、データセットのサイズと多様性に対する単純なアプローチが驚くほど効果的であることを示している。
UtiliMaxは,手動ベースラインよりも最大10.6倍のスピードアップを達成することで,トークンベースの200ドルを拡大する。また,LLMを活用して小さなサンプルからデータユーティリティを推定するモデル推定データユーティリティ(MEDU)は,計算要求を$simxで削減し,アブレーションベースのパフォーマンスに適合する。
論文 参考訳(メタデータ) (2025-01-20T21:10:22Z) - Aligning Instruction Tuning with Pre-training [81.4748965653345]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - Demystifying Workload Imbalances in Large Transformer Model Training over Variable-length Sequences [31.232756326457277]
我々は並列戦略とデータ割り当てを協調的に最適化するHydraulisを開発する。
実験の結果、Hydraulis は既存のシステムよりも 1.32-2.66 倍高い性能を示した。
論文 参考訳(メタデータ) (2024-12-10T20:01:53Z) - Efficient Bias Mitigation Without Privileged Information [14.21628601482357]
経験的リスク最小化を通じてトレーニングされたディープニューラルネットワークは、グループ間での大きなパフォーマンス格差を示すことが多い。
この問題に対処しようとする既存のバイアス軽減手法は、トレーニングや検証のためにグループラベルに依存していることが多い。
本稿では,支援者モデルのトレーニング履歴全体を活用するフレームワークであるTAB(Targeted Augmentations for Bias Mitigation)を提案する。
また,TABはグループ情報やモデル選択を使わずにグループ性能を向上し,全体の精度を維持しながら既存手法よりも優れていたことを示す。
論文 参考訳(メタデータ) (2024-09-26T09:56:13Z) - BaichuanSEED: Sharing the Potential of ExtensivE Data Collection and Deduplication by Introducing a Competitive Large Language Model Baseline [34.518474035662905]
LLM(Large Language Models)の一般的な能力は、いくつかの機関によって商業秘密として扱われる広範な事前訓練データセットに大きく依存している。
我々は、その有効性と可能性を検証するために、普遍的に適用可能なデータ処理パイプラインの詳細をオープンソース化する。
BaichuanSEEDはトレーニングを通じて一貫性と予測可能性を示し、包括的なベンチマークで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T14:08:23Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。