論文の概要: LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models
- arxiv url: http://arxiv.org/abs/2309.12307v1
- Date: Thu, 21 Sep 2023 17:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 13:36:24.919883
- Title: LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models
- Title(参考訳): LongLoRA: 長期言語モデルの効率的な微調整
- Authors: Yukang Chen, Shengju Qian, Haotian Tang, Xin Lai, Zhijian Liu, Song
Han, Jiaya Jia
- Abstract要約: LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLLaMA2モデルの各種タスクに対して,実験結果が強いことを示す。
- 参考スコア(独自算出の注目度): 67.58275666573496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present LongLoRA, an efficient fine-tuning approach that extends the
context sizes of pre-trained large language models (LLMs), with limited
computation cost. Typically, training LLMs with long context sizes is
computationally expensive, requiring extensive training hours and GPU
resources. For example, training on the context length of 8192 needs 16x
computational costs in self-attention layers as that of 2048. In this paper, we
speed up the context extension of LLMs in two aspects. On the one hand,
although dense global attention is needed during inference, fine-tuning the
model can be effectively and efficiently done by sparse local attention. The
proposed shift short attention effectively enables context extension, leading
to non-trivial computation saving with similar performance to fine-tuning with
vanilla attention. Particularly, it can be implemented with only two lines of
code in training, while being optional in inference. On the other hand, we
revisit the parameter-efficient fine-tuning regime for context expansion.
Notably, we find that LoRA for context extension works well under the premise
of trainable embedding and normalization. LongLoRA demonstrates strong
empirical results on various tasks on LLaMA2 models from 7B/13B to 70B.
LongLoRA adopts LLaMA2 7B from 4k context to 100k, or LLaMA2 70B to 32k on a
single 8x A100 machine. LongLoRA extends models' context while retaining their
original architectures, and is compatible with most existing techniques, like
FlashAttention-2. In addition, to make LongLoRA practical, we collect a
dataset, LongQA, for supervised fine-tuning. It contains more than 3k long
context question-answer pairs.
- Abstract(参考訳): 我々は,事前学習された大規模言語モデル(llm)のコンテキストサイズを計算コストの制限付きで拡張する,効率的な微調整手法であるlongloraを提案する。
一般的に、長いコンテキストサイズでのllmのトレーニングは計算コストが高く、トレーニング時間とgpuリソースが必要となる。
例えば、8192のコンテキスト長のトレーニングには、2048年の16倍の計算コストが必要である。
本稿では,LLMの文脈拡張を2つの側面で高速化する。
一方,推定には大域的注意が必要であるが,局所的な注意を疎かにすることで,モデルの微調整を効果的かつ効率的に行うことができる。
提案するシフト短い注意は,コンテキスト拡張を効果的に実現し,バニラ注意による微調整と同様の性能で非自明な計算セーブを実現する。
特に、トレーニングでは2行のコードでしか実装できないが、推論ではオプションである。
一方,文脈拡張のためのパラメータ効率の良い微調整方式について検討する。
特に、コンテキスト拡張用のLoRAは、トレーニング可能な埋め込みと正規化の前提下でうまく機能する。
LongLoRAは、7B/13Bから70BまでのLLaMA2モデルの様々なタスクに対して強い実験結果を示す。
LongLoRAはLLaMA2 7Bを4kから100k、LLaMA2 70Bから32kに採用している。
LongLoRAはオリジナルのアーキテクチャを維持しながらモデルのコンテキストを拡張し、FlashAttention-2のような既存の技術と互換性がある。
さらに,LongLoRAを実用化するために,教師付き微調整のためのデータセットであるLongQAを収集する。
3k以上の長文の質疑応答を含む。
関連論文リスト
- Why Does the Effective Context Length of LLMs Fall Short? [68.34573617977013]
本稿では,SifTed Rotray 位置埋め込み (STRING) について紹介する。
ストリングは、トレーニング中の元の非効率な位置を上書きするために、よく訓練された位置をシフトし、既存のトレーニング期間内でのパフォーマンスを向上させる。
実験結果から, STRINGは最新の大規模モデルの性能を劇的に向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-24T13:51:50Z) - A Little Goes a Long Way: Efficient Long Context Training and Inference with Partial Contexts [38.867323730365406]
LongGenは、事前訓練されたLLMを、長さ拡張中に効率的なアーキテクチャに微調整する。
LongGenはトレーニングのスピードアップを1.55倍にし、フルアテンションベースラインに比べてウォールタイム時間を36%短縮する。
推論中、LongGenはKVキャッシュメモリを62%削減し、1.67倍のプリフィルスピードアップと1.41倍のデコードスピードアップを達成した。
論文 参考訳(メタデータ) (2024-10-02T12:35:53Z) - LongRecipe: Recipe for Efficient Long Context Generalization in Large Language Models [72.71150585370147]
LongRecipeは、大きな言語モデルのコンテキストウィンドウを拡張するための効率的なトレーニング戦略である。
トレーニング効率を維持しながら、長いシーケンス入力をシミュレートし、長距離依存に対するモデルの理解を大幅に改善する。
LongRecipeは、ターゲットのコンテキストウィンドウサイズの30%しか必要とせず、長いシーケンスを使うことができる。
論文 参考訳(メタデータ) (2024-08-31T17:19:30Z) - ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities [53.97515452727115]
ChatQA 2は、128Kコンテキストウィンドウを備えたLlama 3.0ベースのモデルである。
Llama3-70Bベースのコンテキストウィンドウを8Kから128Kまで拡張するためのトレーニングレシピを提案する。
以上の結果から,Llama3-ChatQA-2-70Bモデルは既存の最先端モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-07-19T17:35:47Z) - Extending Llama-3's Context Ten-Fold Overnight [23.163055795834765]
我々は,Llama-3-8B-Instructのコンテキスト長を8Kから80Kまで,QLoRAファインタニングにより拡張する。
得られたモデルは、幅広い評価タスクにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-30T13:25:20Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - Training-Free Long-Context Scaling of Large Language Models [114.53296002607993]
我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-27T12:39:23Z) - LongQLoRA: Efficient and Effective Method to Extend Context Length of
Large Language Models [2.4366811507669124]
LongQLoRAは、トレーニングリソースの少ない大規模言語モデルのコンテキスト長を拡張する方法である。
単一の32GB V100 GPUを使用すると、LongQLoRAはLLaMA2 7Bと13Bのコンテキスト長を4096年から8192、1000ステップ以内の12kにまで拡張することができる。
LongQLoRAはPG19とProof-Pileデータセット上での競合パープレキシティパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-08T18:33:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。