論文の概要: Effective Long-Context Scaling of Foundation Models
- arxiv url: http://arxiv.org/abs/2309.16039v3
- Date: Tue, 14 Nov 2023 01:40:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 18:11:30.301004
- Title: Effective Long-Context Scaling of Foundation Models
- Title(参考訳): 基礎モデルの有効長期スケーリング
- Authors: Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal
Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman,
Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz
Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang,
Hao Ma
- Abstract要約: 最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
- 参考スコア(独自算出の注目度): 90.57254298730923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a series of long-context LLMs that support effective context
windows of up to 32,768 tokens. Our model series are built through continual
pretraining from Llama 2 with longer training sequences and on a dataset where
long texts are upsampled. We perform extensive evaluation on language modeling,
synthetic context probing tasks, and a wide range of research benchmarks. On
research benchmarks, our models achieve consistent improvements on most regular
tasks and significant improvements on long-context tasks over Llama 2. Notably,
with a cost-effective instruction tuning procedure that does not require
human-annotated long instruction data, the 70B variant can already surpass
gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks.
Alongside these results, we provide an in-depth analysis on the individual
components of our method. We delve into Llama's position encodings and discuss
its limitation in modeling long dependencies. We also examine the impact of
various design choices in the pretraining process, including the data mix and
the training curriculum of sequence lengths -- our ablation experiments suggest
that having abundant long texts in the pretrain dataset is not the key to
achieving strong performance, and we empirically verify that long context
continual pretraining is more efficient and similarly effective compared to
pretraining from scratch with long sequences.
- Abstract(参考訳): 最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提案する。
我々のモデルシリーズは、Llama 2からの継続事前トレーニングと、長いテキストがアップサンプリングされたデータセットに基づいて構築されている。
我々は、言語モデリング、合成文脈探索タスク、および幅広い研究ベンチマークに関する広範囲な評価を行う。
研究ベンチマークでは、Llama 2上でのほとんどの通常のタスクに対する一貫した改善と長時間コンテキストタスクに対する大幅な改善を実現している。
特に、人間が注釈付き長い命令データを必要としないコスト効率の高い命令チューニング手順により、70bの派生型は、一連のロングコンテキストタスクにおけるgpt-3.5-turbo-16kの全体的な性能を既に上回ることができる。
これらの結果とともに,本手法の個々の成分について詳細な分析を行う。
我々はLlamaの位置エンコーディングを掘り下げ、長い依存関係をモデリングする際の制限について論じる。
また,データミックスやシーケンス長のトレーニングカリキュラムなど,プリトレーニングプロセスにおけるさまざまな設計選択の影響についても検討した。本実験では,プリトレーニングデータセットに豊富な長いテキストを持つことは,強力なパフォーマンスを実現する鍵ではないことを示唆する。
関連論文リスト
- Training-Free Long-Context Scaling of Large Language Models [120.27629784425274]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - LongWanjuan: Towards Systematic Measurement for Long Text Quality [102.46517202896521]
LongWanjuanは160B以上のトークンを持つ長文タスクのための言語モデルのトレーニングを強化するために特別に設計されたデータセットである。
LongWanjuanでは、長文を全体的、集約的、カオス的なタイプに分類し、長文品質の詳細な分析を可能にする。
我々は,LongWanjuan内で異なるタイプの長文を戦略的にバランスさせるデータ混合レシピを考案し,長文タスクにおけるモデル性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-21T07:27:18Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - E^2-LLM: Efficient and Extreme Length Extension of Large Language Models [74.1254067728251]
本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
論文 参考訳(メタデータ) (2024-01-13T02:11:20Z) - Unified Long-Term Time-Series Forecasting Benchmark [0.6526824510982802]
本稿では,時系列予測のための包括的データセットを提案する。
多様な動的システムと実生活記録から得られたデータセットのコレクションを組み込んだ。
多様なシナリオにおいて最も効果的なモデルを決定するために、古典的および最先端のモデルを用いて広範なベンチマーク分析を行う。
本研究は,これらのモデルの性能比較を興味深いものにし,モデルの有効性のデータセット依存性を強調した。
論文 参考訳(メタデータ) (2023-09-27T18:59:00Z) - Adapting Pretrained Text-to-Text Models for Long Text Sequences [39.62224414485055]
我々は、時系列入力に既存の事前訓練されたテキスト・ツー・テキスト・モデルを適用する。
長文QAタスク上での競合性能を実現するための長文モデルを構築した。
論文 参考訳(メタデータ) (2022-09-21T00:41:07Z) - LOT: A Benchmark for Evaluating Chinese Long Text Understanding and
Generation [49.57366550980932]
ロングテキストモデリングは、長距離コモンセンスや談話関係のモデリングのような多くの機能を必要とする。
中国語長文モデリング評価のための2つの理解と2つの世代タスクを含むベンチマークであるLOTを提案する。
我々は、最大10億のパラメータを持つLongLMという、エンコーダ-デコーダ中国の長文事前学習モデルをリリースする。
論文 参考訳(メタデータ) (2021-08-30T02:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。