論文の概要: Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models
- arxiv url: http://arxiv.org/abs/2409.04774v1
- Date: Sat, 7 Sep 2024 09:28:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:51:37.460935
- Title: Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models
- Title(参考訳): Untie the Knots: 言語モデルにおける長期事前学習のための効率的なデータ拡張戦略
- Authors: Junfeng Tian, Da Zheng, Yang Cheng, Rui Wang, Colin Zhang, Debing Zhang,
- Abstract要約: 長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。
継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。
我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
- 参考スコア(独自算出の注目度): 21.90388980448712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLM) have prioritized expanding the context window from which models can incorporate more information. However, training models to handle long contexts presents significant challenges. These include the scarcity of high-quality natural long-context data, the potential for performance degradation on short-context tasks, and the reduced training efficiency associated with attention mechanisms. In this paper, we introduce Untie the Knots (\textbf{UtK}), a novel data augmentation strategy employed during the continue pre-training phase, designed to efficiently enable LLMs to gain long-context capabilities without the need to modify the existing data mixture. In particular, we chunk the documents, shuffle the chunks, and create a complex and knotted structure of long texts; LLMs are then trained to untie these knots and identify relevant segments within seemingly chaotic token sequences. This approach greatly improves the model's performance by accurately attending to relevant information in long context and the training efficiency is also largely increased. We conduct extensive experiments on models with 7B and 72B parameters, trained on 20 billion tokens, demonstrating that UtK achieves 75\% and 84.5\% accurracy on RULER at 128K context length, significantly outperforming other long context strategies. The trained models will open-source for further research.
- Abstract(参考訳): 大規模言語モデル(LLM)は、より多くの情報を組み込むことができるコンテキストウィンドウの拡張を優先している。
しかし、長いコンテキストを扱うためのトレーニングモデルには大きな課題がある。
これらには、高品質な自然コンテキストデータの不足、短文タスクのパフォーマンス低下の可能性、注意機構に関連するトレーニング効率の低下などが含まれる。
本稿では、継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(\textbf{UtK})を紹介する。
特に、文書をチャンクし、チャンクをシャッフルし、長いテキストの複雑な結び目構造を作成します。
このアプローチは、関連する情報を長期の文脈で正確に対応させることで、モデルの性能を大幅に改善し、トレーニング効率も大幅に向上する。
20億のトークンでトレーニングされた7Bと72Bのパラメータを持つモデルに対して広範な実験を行い、UtKがRULER上で128Kのコンテキスト長で75\%と84.5\%のアキュラキシーを達成し、他の長いコンテキスト戦略よりも大幅に優れていることを示した。
訓練されたモデルは、さらなる研究のためにオープンソース化される。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Strategic Data Ordering: Enhancing Large Language Model Performance through Curriculum Learning [1.635645768730924]
LLM(Large Language Models)は、テキストの理解と生成を改善するが、計算資源に課題をもたらす。
本研究では、より単純なタスクから始まり、より複雑なタスクへと進む、カリキュラムに着想を得たデータ中心のトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T06:09:10Z) - Long Context Alignment with Short Instructions and Synthesized Positions [56.1267385315404]
本稿では,ステップスキッピングアライメント(SkipAlign)を紹介する。
これは、Large Language Models(LLMs)の長期コンテキスト機能を強化するために設計された新しい技術である。
ベースモデルとアライメントデータセットを慎重に選択することで、SkipAlignは6Bパラメータだけで最高のパフォーマンスを実現し、LongBenchのGPT-3.5-Turbo-16Kのような強力なベースラインに匹敵する。
論文 参考訳(メタデータ) (2024-05-07T01:56:22Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。
LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。