論文の概要: Training-Free Long-Context Scaling of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.17463v2
- Date: Wed, 29 May 2024 05:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 23:11:33.912958
- Title: Training-Free Long-Context Scaling of Large Language Models
- Title(参考訳): 大規模言語モデルの学習自由長期スケーリング
- Authors: Chenxin An, Fei Huang, Jun Zhang, Shansan Gong, Xipeng Qiu, Chang Zhou, Lingpeng Kong,
- Abstract要約: 我々は、Llama2 70Bが連続的なトレーニングなしで100k以上のトークンのコンテキストウィンドウをサポート可能なDual Chunk Attentionを提案する。
長いシーケンスの注意をチャンクベースのモジュールに分解することで、DCAはトークンの相対的な位置情報を効果的にキャプチャする。
- 参考スコア(独自算出の注目度): 114.53296002607993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of Large Language Models (LLMs) to process and generate coherent text is markedly weakened when the number of input tokens exceeds their pretraining length. Given the expensive overhead of finetuning large-scale models with longer sequences, we propose Dual Chunk Attention (DCA), which enables Llama2 70B to support context windows of more than 100k tokens without continual training. By decomposing the attention computation for long sequences into chunk-based modules, DCA manages to effectively capture the relative positional information of tokens within the same chunk (Intra-Chunk) and across distinct chunks (Inter-Chunk), as well as integrates seamlessly with Flash Attention. In addition to its impressive extrapolation capability, DCA achieves performance on practical long-context tasks that is comparable to or even better than that of finetuned models. When compared with proprietary models, our training-free 70B model attains 94% of the performance of gpt-3.5-16k, indicating it is a viable open-source alternative. All code and data used in this work are released at \url{https://github.com/HKUNLP/ChunkLlama}.
- Abstract(参考訳): 大規模言語モデル(LLM)によるコヒーレントテキストの処理と生成能力は,入力トークンの数が事前学習期間を超えると著しく低下する。
Llama2 70Bは100k以上のトークンのコンテキストウィンドウを連続的なトレーニングなしでサポートできる。
長いシーケンスの注意計算をチャンクベースのモジュールに分解することで、DCAは同じチャンク(Intra-Chunk)と異なるチャンク(Inter-Chunk)内のトークンの相対的な位置情報を効果的にキャプチャし、Flash Attentionとシームレスに統合する。
DCAは、その印象的な補間機能に加えて、微調整されたモデルに匹敵する、あるいはそれ以上に優れた、実用的な長期コンテキストタスクのパフォーマンスを実現している。
プロプライエタリモデルと比較すると,トレーニングフリーの70Bモデルでは,gpt-3.5-16kのパフォーマンスの94%を達成しています。
この作業で使用されるすべてのコードとデータは、 \url{https://github.com/HKUNLP/ChunkLlama} でリリースされる。
関連論文リスト
- Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題
Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。
我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。
我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-24T09:25:37Z) - How to Train Long-Context Language Models (Effectively) [75.5418485597276]
言語モデル(LM)の継続学習と教師付き微調整(SFT)を行い,長文情報の有効利用について検討した。
ProLong-8BはLlama-3のもので、40Bトークンで訓練されている。
論文 参考訳(メタデータ) (2024-10-03T16:46:52Z) - Untie the Knots: An Efficient Data Augmentation Strategy for Long-Context Pre-Training in Language Models [21.90388980448712]
長いコンテキストを扱うためのトレーニングモデルには、大きな課題があります。
継続事前学習フェーズで使用される新しいデータ拡張戦略であるUntie the Knots(textbfUtK)を紹介する。
我々は、UtKがRULER上で128Kの文脈長で75%と84.5%の精度を達成したことを示す200億のトークンで訓練された7Bと72Bのパラメータを持つモデルに関する広範な実験を行った。
論文 参考訳(メタデータ) (2024-09-07T09:28:55Z) - FocusLLM: Scaling LLM's Context by Parallel Decoding [16.642675785000176]
FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。
FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。
ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
論文 参考訳(メタデータ) (2024-08-21T16:11:59Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - LOCOST: State-Space Models for Long Document Abstractive Summarization [76.31514220737272]
長いコンテキスト入力を持つ条件付きテキスト生成のための状態空間モデルに基づくエンコーダデコーダアーキテクチャであるLOCOSTを提案する。
計算複雑性が$O(L log L)$の場合、このアーキテクチャは疎注意パターンに基づく最先端モデルよりもはるかに長いシーケンスを処理できる。
論文 参考訳(メタデータ) (2024-01-31T15:33:37Z) - Effective Long-Context Scaling of Foundation Models [90.57254298730923]
最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提示する。
我々のモデルは、ほとんどの通常のタスクにおいて一貫した改善を達成し、Llama 2よりも長いコンテキストタスクを大幅に改善します。
論文 参考訳(メタデータ) (2023-09-27T21:41:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。