論文の概要: Extending Llama-3's Context Ten-Fold Overnight
- arxiv url: http://arxiv.org/abs/2404.19553v1
- Date: Tue, 30 Apr 2024 13:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 14:05:41.213777
- Title: Extending Llama-3's Context Ten-Fold Overnight
- Title(参考訳): Llama-3のコンテキスト10Foldを一晩で拡張する
- Authors: Peitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou,
- Abstract要約: 我々は,Llama-3-8B-Instructのコンテキスト長を8Kから80Kまで,QLoRAファインタニングにより拡張する。
得られたモデルは、幅広い評価タスクにおいて優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 23.163055795834765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We extend the context length of Llama-3-8B-Instruct from 8K to 80K via QLoRA fine-tuning. The entire training cycle is super efficient, which takes 8 hours on one 8xA800 (80G) GPU machine. The resulted model exhibits superior performances across a broad range of evaluation tasks, such as NIHS, topic retrieval, and long-context language understanding; meanwhile, it also well preserves the original capability over short contexts. The dramatic context extension is mainly attributed to merely 3.5K synthetic training samples generated by GPT-4 , which indicates the LLMs' inherent (yet largely underestimated) potential to extend its original context length. In fact, the context length could be extended far beyond 80K with more computation resources. Therefore, the team will publicly release the entire resources (including data, model, data generation pipeline, training code) so as to facilitate the future research from the community: \url{https://github.com/FlagOpen/FlagEmbedding}.
- Abstract(参考訳): 我々は,Llama-3-8B-Instructのコンテキスト長を8Kから80Kまで,QLoRAファインタニングにより拡張する。
トレーニングサイクル全体が超効率的で、1台の8xA800(80G)GPUマシンで8時間かかる。
得られたモデルは、NIHS、トピック検索、長文言語理解などの幅広い評価タスクにおいて優れた性能を示し、一方、短い文脈よりも本来の能力を保っている。
劇的な文脈拡張は主に、GPT-4によって生成された3.5Kの合成訓練サンプルに起因している。
実際、コンテクストの長さは80Kを超えて、より多くの計算リソースで拡張できる。
そのため、チームは、コミュニティの将来の研究を促進するために、すべてのリソース(データ、モデル、データ生成パイプライン、トレーニングコードを含む)を公開する。
関連論文リスト
- How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts [38.867323730365406]
LongGenは、事前訓練されたLLMを、長さ拡張中に効率的なアーキテクチャに微調整する。
LongGenはトレーニングのスピードアップを1.55倍にし、フルアテンションベースラインに比べてウォールタイム時間を36%短縮する。
推論中、LongGenはKVキャッシュメモリを62%削減し、1.67倍のプリフィルスピードアップと1.41倍のデコードスピードアップを達成した。
論文 参考訳(メタデータ) (2024-10-02T12:35:53Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - LongQLoRA: Efficient and Effective Method to Extend Context Length of
Large Language Models [2.4366811507669124]
LongQLoRAは、トレーニングリソースの少ない大規模言語モデルのコンテキスト長を拡張する方法である。
単一の32GB V100 GPUを使用すると、LongQLoRAはLLaMA2 7Bと13Bのコンテキスト長を4096年から8192、1000ステップ以内の12kにまで拡張することができる。
LongQLoRAはPG19とProof-Pileデータセット上での競合パープレキシティパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-08T18:33:06Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。