論文の概要: LongQLoRA: Efficient and Effective Method to Extend Context Length of
Large Language Models
- arxiv url: http://arxiv.org/abs/2311.04879v2
- Date: Thu, 9 Nov 2023 05:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 12:00:11.253883
- Title: LongQLoRA: Efficient and Effective Method to Extend Context Length of
Large Language Models
- Title(参考訳): longqlora: 大きな言語モデルのコンテキスト長を拡張する効率的かつ効果的な方法
- Authors: Jianxin Yang
- Abstract要約: LongQLoRAは、トレーニングリソースの少ない大規模言語モデルのコンテキスト長を拡張する方法である。
単一の32GB V100 GPUを使用すると、LongQLoRAはLLaMA2 7Bと13Bのコンテキスト長を4096年から8192、1000ステップ以内の12kにまで拡張することができる。
LongQLoRAはPG19とProof-Pileデータセット上での競合パープレキシティパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 2.4366811507669124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LongQLoRA, an efficient and effective method to extend context
length of large language models with less training resources. LongQLoRA
combines the advantages of Position Interpolation, QLoRA and Shift Short
Attention of LongLoRA. With a single 32GB V100 GPU, LongQLoRA can extend the
context length of LLaMA2 7B and 13B from 4096 to 8192 and even to 12k within
1000 finetuning steps. LongQLoRA achieves competitive perplexity performance on
PG19 and Proof-pile datasets, our model outperforms LongLoRA and is very close
to MPT-7B-8K within the evaluation context length of 8192. We collect and build
39k long instruction data to extend context length of Vicuna-13B from 4096 to
8192 and achieve good performance both in long and short context generation
task. We also do some ablation experiments to study the effect of LoRA rank,
finetuning steps and attention patterns in inference.The model weights,
training data and code are avaliable at
https://github.com/yangjianxin1/LongQLoRA.
- Abstract(参考訳): 学習リソースの少ない大規模言語モデルのコンテキスト長を拡張可能な,効率的かつ効果的な手法であるlongqloraを提案する。
LongQLoRAは、位置補間、QLoRA、LongLoRAのシフトショートアテンションの利点を組み合わせたものだ。
単一の32GB V100 GPUで、LongQLoRAはLLaMA2 7Bと13Bのコンテキスト長を4096年から8192、1000ステップ以内の12kまで拡張することができる。
LongQLoRA は PG19 および Proof-Pile データセット上での競合パープレキシティ性能を実現し,LongLoRA よりも優れ,評価コンテキスト長 8192 のMPT-7B-8K に非常に近い。
Vicuna-13Bのコンテキスト長を4096年から8192まで拡張するために,39k長の命令データを収集,構築し,長いコンテキスト生成タスクと短いコンテキスト生成タスクの両方で優れた性能を実現する。
また、loraランク、微調整ステップ、推論における注意パターンの影響を研究するために、いくつかのアブレーション実験も行っています。モデルの重み付け、トレーニングデータ、コードはhttps://github.com/yangjianxin1/longqlora.com.comで評価可能です。
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - MemLong: Memory-Augmented Retrieval for Long Text Modeling [37.49036666949963]
この研究はMemLong: Memory-Augmented Retrieval for Long Text Generationを紹介します。
MemLongは、非微分可能なret-mem'モジュールと部分的にトレーニング可能なデコーダのみの言語モデルを組み合わせる。
複数の長文言語モデリングベンチマークに関する総合的な評価は、MemLongが他の最先端のLLMよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2024-08-30T02:01:56Z) - LongAlign: A Recipe for Long Context Alignment of Large Language Models [61.85923382850057]
LongAlignは、ロングコンテキストアライメントのための命令データ、トレーニング、評価のレシピである。
我々はSelf-Instructを使って長い命令追従データセットを構築した。
我々は、長さ分布の異なるデータの教師付き微調整を高速化するために、パッキングとソート戦略を採用した。
論文 参考訳(メタデータ) (2024-01-31T18:29:39Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z) - LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。