論文の概要: E^2-LLM: Efficient and Extreme Length Extension of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.06951v3
- Date: Thu, 22 Feb 2024 12:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:02:29.141827
- Title: E^2-LLM: Efficient and Extreme Length Extension of Large Language Models
- Title(参考訳): E^2-LLM:大規模言語モデルの効率的・極長拡張
- Authors: Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge
Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu,
Wenhu Chen, Bo Zheng
- Abstract要約: 本稿では,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と劇的にコストを削減した効率的な拡張手法を提案する。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
- 参考スコア(独自算出の注目度): 74.1254067728251
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Typically, training LLMs with long context sizes is computationally
expensive, requiring extensive training hours and GPU resources. Existing
long-context extension methods usually need additional training procedures to
support corresponding long-context windows, where the long-context training
data (e.g., 32k) is needed, and high GPU training costs are assumed. To address
the aforementioned issues, we propose an Efficient and Extreme length extension
method for Large Language Models, called E 2 -LLM, with only one training
procedure and dramatically reduced computation cost, which also removes the
need to collect long-context data. Concretely, first, the training data of our
E 2 -LLM only requires a short length (e.g., 4k), which reduces the tuning cost
greatly. Second, the training procedure on the short training context window is
performed only once time, and we can support different evaluation context
windows at inference. Third, in E 2 - LLM, based on RoPE position embeddings,
we introduce two different augmentation methods on the scale and position index
parameters for different samples in training. It aims to make the model more
robust to the different relative differences when directly interpolating the
arbitrary context length at inference. Comprehensive experimental results on
multiple benchmark datasets demonstrate the effectiveness of our E 2 -LLM on
challenging long-context tasks.
- Abstract(参考訳): 一般的に、長いコンテキストサイズでのllmのトレーニングは計算コストが高く、トレーニング時間とgpuリソースが必要となる。
既存のロングコンテキスト拡張手法は、通常、対応するロングコンテキストウィンドウをサポートするために追加のトレーニング手順を必要とし、ロングコンテキストトレーニングデータ(例えば32k)が必要であり、GPUトレーニングコストが高いと仮定する。
上記の問題に対処するため,E2-LLMと呼ばれる大規模言語モデルに対して,1つの訓練手順と計算コストを大幅に削減した効率的な拡張手法を提案する。
具体的には、E2-LLMのトレーニングデータは短い長さ(例:4k)しか必要とせず、チューニングコストを大幅に削減する。
第2に、短いトレーニングコンテキストウィンドウ上のトレーニング手順は一度だけ実行され、推論時に異なる評価コンテキストウィンドウをサポートすることができる。
第3に,RoPE 位置埋め込みに基づく E2 - LLM において,異なるサンプルに対するスケールと位置指数パラメータに関する2つの異なる拡張手法を導入する。
推論時に任意のコンテキスト長を直接補間する場合、モデルは異なる相対差に対してより堅牢になる。
複数のベンチマークデータセットに対する総合的な実験結果から,E2-LLMが長文課題に対する有効性を示した。
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models [61.12177317970258]
LongSkyworkは、最大20万のトークンを処理できる、長いコンテキストのLarge Language Modelである。
我々は合成データを作成する2つの新しい方法を開発した。
LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-06-02T03:34:41Z) - Long Context is Not Long at All: A Prospector of Long-Dependency Data for Large Language Models [13.091271774417867]
長期コンテキストモデリング機能は、様々なアプリケーションにおいて大きな言語モデル(LLM)にとって重要である。
データマイニングフレームワーク textbfProLong を提案する。
複数のベンチマークに関する総合的な実験は、ProLongが長い依存関係を持つドキュメントを効果的に識別していることを示している。
論文 参考訳(メタデータ) (2024-05-28T07:36:56Z) - Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。