論文の概要: Long-Context Language Modeling with Parallel Context Encoding
- arxiv url: http://arxiv.org/abs/2402.16617v2
- Date: Tue, 11 Jun 2024 18:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 22:44:06.901028
- Title: Long-Context Language Modeling with Parallel Context Encoding
- Title(参考訳): 並列文脈符号化を用いたLong-Context言語モデリング
- Authors: Howard Yen, Tianyu Gao, Danqi Chen,
- Abstract要約: 既存のデコーダのみのLLMに適用可能なフレームワークを導入し、コンテキストウィンドウを拡張する。
CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。
CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
- 参考スコア(独自算出の注目度): 37.64884969997378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending large language models (LLMs) to process longer inputs is crucial for a wide range of applications. However, the substantial computational cost of transformers and limited generalization of positional encoding restrict the size of their context window. We introduce Context Expansion with Parallel Encoding (CEPE), a framework that can be applied to any existing decoder-only LLMs to extend their context window. CEPE employs a small encoder to process long inputs chunk by chunk, enabling the frozen decoder to utilize additional contexts via cross-attention. CEPE is efficient, generalizable, and versatile: trained with 8K-token documents, it extends the context window of LLAMA-2 to 128K tokens, offering 10x the throughput with only 1/6 of the memory. CEPE yields strong performance on language modeling and in-context learning. CEPE also excels in retrieval-augmented applications, while existing long-context models degenerate with retrieved contexts. We further introduce a CEPE variant that can extend the context window of instruction-tuned models using only unlabeled data, and showcase its effectiveness on LLAMA-2-CHAT, leading to a strong instruction-following model that can leverage very long contexts on downstream tasks.
- Abstract(参考訳): 大きな言語モデル(LLM)を拡張して、より長い入力を処理することは、幅広いアプリケーションにとって不可欠である。
しかし、トランスのかなりの計算コストと位置符号化の限定的な一般化により、コンテキストウィンドウのサイズは制限される。
既存のデコーダのみのLLMに適用可能なフレームワークであるCEPE(Context Expansion with Parallel Encoding)を導入し、コンテキストウィンドウを拡張する。
CEPEは小さなエンコーダを使用して長い入力チャンクをチャンク単位で処理し、冷凍復号器はクロスアテンションを介して追加のコンテキストを利用することができる。
CEPEは効率的で汎用的で汎用的であり、8Kの文書で訓練され、LLAMA-2のコンテキストウィンドウを128Kのトークンに拡張し、メモリの1/6のスループットを10倍提供する。
CEPEは、言語モデリングとコンテキスト内学習に強いパフォーマンスをもたらす。
CEPEは検索拡張アプリケーションでも優れており、既存の長期コンテキストモデルは検索コンテキストで縮退する。
さらに、ラベルなしデータのみを用いて命令調整モデルのコンテキストウィンドウを拡張するCEPE変異を導入し、LLAMA-2-CHAT上での有効性を示し、下流タスクにおいて非常に長いコンテキストを活用できる強力な命令追従モデルを実現する。
関連論文リスト
- Two are better than one: Context window extension with multi-grained self-injection [111.1376461868317]
SharedLLMは、多粒度コンテキスト圧縮とクエリ対応情報検索の設計哲学に基づく新しいアプローチである。
本研究では,テキストチャンクの多粒度コンテキスト情報を効率的にエンコードし,保存し,検索するための木構造データ構造を提案する。
論文 参考訳(メタデータ) (2024-10-25T06:08:59Z) - E2LLM: Encoder Elongated Large Language Models for Long-Context Understanding and Reasoning [20.660297311025417]
E2LLM (Encodergated Large Language Models) は「不可能な三角形」を効果的にナビゲートする新しい手法である。
この手法では、長いコンテキストをチャンクに分割し、事前訓練されたテキストエンコーダを介してベクターに圧縮し、アダプタを使用してこれらの表現をデコーダのみのLLMで整列させる。
実験により、E2LLMは、事前訓練されたモデルとの効率、性能、互換性のバランスを保ちながら、長期コンテキストシナリオにおいて優れた性能を達成することが示された。
論文 参考訳(メタデータ) (2024-09-10T17:44:35Z) - The Compressor-Retriever Architecture for Language Model OS [20.56093501980724]
オペレーティングシステム(OS)のコアコンポーネントとして言語モデルを用いるという概念について検討する。
このようなLM OSを実現する上で重要な課題は、寿命の長いコンテキストを管理し、セッション間のステートフルネスを確保することだ。
本稿では,生涯のコンテキスト管理のために設計されたモデル非依存アーキテクチャであるコンプレッサー・レトリバーを紹介する。
論文 参考訳(メタデータ) (2024-09-02T23:28:15Z) - FocusLLM: Scaling LLM's Context by Parallel Decoding [16.642675785000176]
FocusLLM はデコーダのみの LLM のコンテキスト長を拡張するように設計されたフレームワークである。
FocusLLMは、モデルを元のコンテキスト長に基づいてチャンクに分割することで、長いテキスト入力を処理する。
ローカルコンテキストを各チャンクに付加し、新しい並列復号機構に基づいて各チャンクから必須情報を抽出するプロンプトとする。
論文 参考訳(メタデータ) (2024-08-21T16:11:59Z) - KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches [52.02764371205856]
長期の文脈能力は、大規模言語モデル(LLM)にとって重要な能力である
この研究は、現在の手法の分類を提供し、長いコンテキストタスクの7つのカテゴリにまたがる10以上の最先端のアプローチを評価する。
論文 参考訳(メタデータ) (2024-07-01T17:59:47Z) - LongEmbed: Extending Embedding Models for Long Context Retrieval [87.60404151086715]
本稿では、埋め込みモデルのコンテキストウィンドウ拡張について検討し、追加のトレーニングを必要とせず、制限を32kまで押し上げる。
まず、新たに構築したLongEmbedベンチマークにおいて、コンテキスト検索のための現在の埋め込みモデルの性能について検討する。
実験では、PlaceRoのようなトレーニング不要のコンテキストウィンドウ拡張戦略が、既存の埋め込みモデルのコンテキストウィンドウを複数の折り畳みで効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-04-18T11:29:23Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。