論文の概要: Data Engineering for Scaling Language Models to 128K Context
- arxiv url: http://arxiv.org/abs/2402.10171v1
- Date: Thu, 15 Feb 2024 18:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:23:51.057883
- Title: Data Engineering for Scaling Language Models to 128K Context
- Title(参考訳): 言語モデルを128kコンテキストにスケールアップするためのデータエンジニアリング
- Authors: Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi,
Yoon Kim and Hao Peng
- Abstract要約: 本研究では,言語モデルの文脈長を128Kまで拡張するための継続事前学習法について検討する。
既存の作業の一般的な実践である書籍のような特定のドメインで、より長いデータを鼻でサンプリングすることで、パフォーマンスが最適以下であることが分かりました。
我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
- 参考スコア(独自算出の注目度): 98.41554785106902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the continual pretraining recipe for scaling language models'
context lengths to 128K, with a focus on data engineering. We hypothesize that
long context modeling, in particular \textit{the ability to utilize information
at arbitrary input locations}, is a capability that is mostly already acquired
through large-scale pretraining, and that this capability can be readily
extended to contexts substantially longer than seen during training~(e.g., 4K
to 128K) through lightweight continual pretraining on appropriate data mixture.
We investigate the \textit{quantity} and \textit{quality} of the data for
continual pretraining: (1) for quantity, we show that 500 million to 5 billion
tokens are enough to enable the model to retrieve information anywhere within
the 128K context; (2) for quality, our results equally emphasize \textit{domain
balance} and \textit{length upsampling}. Concretely, we find that naively
upsampling longer data on certain domains like books, a common practice of
existing work, gives suboptimal performance, and that a balanced domain mixture
is important. We demonstrate that continual pretraining of the full model on
1B-5B tokens of such data is an effective and affordable strategy for scaling
the context length of language models to 128K. Our recipe outperforms strong
open-source long-context models and closes the gap to frontier models like
GPT-4 128K.
- Abstract(参考訳): 言語モデルのコンテキスト長を128kまでスケールアップするための継続的事前学習レシピを,データエンジニアリングを中心に検討した。
長いコンテキストモデリング、特に \textit{the ability to use information at any input locations} は、主に大規模事前トレーニングによって既に獲得されている機能であり、この能力は、適切なデータ混合上での軽量な連続的事前トレーニングを通じて、トレーニング中(例えば、4kから128k)において、かなり長いコンテキストに拡張できると仮定する。
本研究では, 連続事前学習のためのデータの「textit{quantity}」と「textit{quality}」について検討する。(1) 量について, 5億~50億個のトークンが, 128Kコンテキスト内であればどこでも情報を検索できることを示す;(2) 品質についても同様に「textit{domain balance}」と「textit{length upsampling}」が強調される。
具体的には、本のような特定のドメインのより長いデータ、つまり既存の作業の一般的な実践は、最適以下のパフォーマンスをもたらし、バランスの取れたドメインの混合が重要であることに気付きます。
このようなデータの1B-5Bトークン上でのフルモデルの連続事前学習は、言語モデルの文脈長を128Kに拡張するための効果的で安価な戦略であることを示す。
我々のレシピは強力なオープンソース長文モデルより優れており、GPT-4 128Kのようなフロンティアモデルとのギャップを埋めている。
関連論文リスト
- InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning [58.7966588457529]
InfiMM-WebMath-40Bは、インターリーブされた画像テキスト文書の高品質なデータセットである。
ウェブページは2400万、画像URLは8500万、テキストトークンは400億だ。
テキストのみのベンチマークでは,400億トークンしか利用していないにもかかわらず,データセットは1.3Bモデルの性能を大幅に向上させることが示された。
私たちのモデルは、MathVerseやWe-Mathといったマルチモーダルな数学ベンチマーク上で、オープンソースモデルの中で新しい最先端のモデルを設定しました。
論文 参考訳(メタデータ) (2024-09-19T08:41:21Z) - Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。
継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。
我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-09-07T09:28:55Z) - Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文 参考訳(メタデータ) (2024-03-07T16:52:49Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文 参考訳(メタデータ) (2022-11-09T15:07:06Z) - BERTIN: Efficient Pre-Training of a Spanish Language Model using
Perplexity Sampling [0.0]
Common Crawlは、この事前学習サブ最適化を実現するのに十分なノイズを含むかもしれない。
約半分のステップで言語モデルの事前学習を可能にする新しいデータ中心手法を提案する。
私たちの仕事はトランスフォーマーの汎用性の証明であり、小さなチームが限られた予算でモデルをトレーニングするための道を開くものです。
論文 参考訳(メタデータ) (2022-07-14T10:48:42Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。