論文の概要: Long-Context Language Modeling with Parallel Context Encoding
- arxiv url: http://arxiv.org/abs/2402.16617v2
- Date: Tue, 11 Jun 2024 18:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 22:44:06.901028
- Title: Long-Context Language Modeling with Parallel Context Encoding
- Title(参考訳): 並列文脈符号化を用いたLong-Context言語モデリング
- Authors: Howard Yen, Tianyu Gao, Danqi Chen,
- Abstract要約: 既存のデコーダのみのLLMに適用可能なフレームワークを導入し、コンテキストウィンドウを拡張する。
CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。
CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 37.64884969997378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending large language models (LLMs) to process longer inputs is crucial for a wide range of applications. However, the substantial computational cost of transformers and limited generalization of positional encoding restrict the size of their context window. We introduce Context Expansion with Parallel Encoding (CEPE), a framework that can be applied to any existing decoder-only LLMs to extend their context window. CEPE employs a small encoder to process long inputs chunk by chunk, enabling the frozen decoder to utilize additional contexts via cross-attention. CEPE is efficient, generalizable, and versatile: trained with 8K-token documents, it extends the context window of LLAMA-2 to 128K tokens, offering 10x the throughput with only 1/6 of the memory. CEPE yields strong performance on language modeling and in-context learning. CEPE also excels in retrieval-augmented applications, while existing long-context models degenerate with retrieved contexts. We further introduce a CEPE variant that can extend the context window of instruction-tuned models using only unlabeled data, and showcase its effectiveness on LLAMA-2-CHAT, leading to a strong instruction-following model that can leverage very long contexts on downstream tasks.
- Abstract(参考訳): 大きな言語モデル(LLM)を拡張して、より長い入力を処理することは、幅広いアプリケーションにとって不可欠である。
しかし、トランスのかなりの計算コストと位置符号化の限定的な一般化により、コンテキストウィンドウのサイズは制限される。
既存のデコーダのみのLLMに適用可能なフレームワークであるCEPE(Context Expansion with Parallel Encoding)を導入し、コンテキストウィンドウを拡張する。
CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。
CEPEは効率的で汎用的で汎用的であり、8Kの文書で訓練され、LLAMA-2のコンテキストウィンドウを128Kのトークンに拡張し、メモリの1/6のスループットを10倍提供する。
CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
CEPEは検索拡張アプリケーションでも優れており、既存の長期コンテキストモデルは検索コンテキストで縮退する。
さらに、ラベルなしデータのみを用いて命令調整モデルのコンテキストウィンドウを拡張するCEPE変異を導入し、LLAMA-2-CHAT上での有効性を示し、下流タスクにおいて非常に長いコンテキストを活用できる強力な命令追従モデルを実現する。
関連論文リスト
- KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [49.43759617227999]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning [68.43706033424378]
本研究では,大規模言語モデル(MLLM)において,テキスト中のテキスト長を効率的に向上する革新的な手法を提案する。
視覚トークンを用いて長文のテキストを処理するビジュアルインコンテキストテキスト処理(VisInContext)を提案する。
この技術は、トレーニングおよび推論段階の両方において、GPUメモリ使用率と浮動小数点演算(FLOP)を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-04T17:59:25Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens [7.833740464264734]
現在の拡張コンテキストウィンドウは約128kトークンに制限されている。
LongRoPEは、事前訓練されたLLMのコンテキストウィンドウを2048kトークンに拡張する。
論文 参考訳(メタデータ) (2024-02-21T12:30:33Z) - Flexibly Scaling Large Language Models Contexts Through Extensible
Tokenization [6.9004592877749005]
大規模言語モデル(LLM)は、多くの重要なアプリケーションを扱うのに十分なコンテキストを必要とする。
コンテキストウィンドウのサイズは微調整で拡張できるが、トレーニングと推論の段階ではかなりのコストがかかる。
LLMのコンテキストの柔軟なスケーリングを実現する代替手法として,拡張可能なトークン化を提案する。
論文 参考訳(メタデータ) (2024-01-15T16:00:50Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。