論文の概要: Long Context Compression with Activation Beacon
- arxiv url: http://arxiv.org/abs/2401.03462v3
- Date: Fri, 11 Oct 2024 02:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:30:04.960303
- Title: Long Context Compression with Activation Beacon
- Title(参考訳): 活性化ビーコンを用いたLong Context Compression
- Authors: Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou,
- Abstract要約: Activation Beaconは、トランスフォーマーベースのLLM用のプラグインモジュールである。
長いコンテキストの効率的な、効率的、柔軟な圧縮をターゲットとしている。
推論時間の2倍の高速化と、KVキャッシュのメモリコストの8倍の削減を実現している。
- 参考スコア(独自算出の注目度): 22.054232261437186
- License:
- Abstract: Long context compression is a critical research problem due to its significance in reducing the high computational and memory costs associated with LLMs. In this paper, we propose Activation Beacon, a plug-in module for transformer-based LLMs that targets effective, efficient, and flexible compression of long contexts. To achieve this, our method introduces the following technical designs. 1) We directly compress the activations (i.e. keys and values at every layer), rather than leveraging soft prompts to relay information (which constitute a major bottleneck to encapsulate the complex information within long contexts). 2) We tailor the compression workflow, where each fine-grained input unit is progressively compressed, enabling high-quality compression and efficient computation during both training and inference. 3) We train the model through compression-based auto-regression, making full use of plain texts and instructional data to optimize the model's compression performance. 4) During training, we randomly sample a compression ratio at each step, teaching the model to support a wide range of compression configurations. Extensive evaluations are conducted on various long-context tasks whose lengths (e.g., 128K) may far exceed the maximum training length (20K), such as document understanding, few-shot learning, and Needle-in-a-Haystack. Whilst existing methods struggle to handle these challenging tasks, Activation Beacon maintains a comparable performance to the uncompressed baseline across various scenarios, achieving a 2x acceleration in inference time and an 8x reduction of memory costs for KV cache. Our data, model, and code have been released at \url{https://github.com/FlagOpen/FlagEmbedding/}.
- Abstract(参考訳): 長い文脈圧縮は、LLMに関連する高い計算コストとメモリコストを減らすことの重要性から、重要な研究課題である。
本稿では,長いコンテキストの効率,効率,フレキシブルな圧縮をターゲットとした,トランスフォーマーベースのLLM用プラグインモジュールであるActivation Beaconを提案する。
そこで本手法では,以下の技術設計を紹介する。
1)情報を中継するためのソフトプロンプトを活用するのではなく,アクティベーション(すなわち各レイヤのキーと値)を直接圧縮する。
2) 各細粒度入力ユニットを段階的に圧縮する圧縮ワークフローを調整し,トレーニングと推論の双方において,高品質な圧縮と効率的な計算を可能にする。
3) 圧縮に基づく自動回帰を用いてモデルを訓練し, 圧縮性能を最適化するために, プレーンテキストと命令データを完全に活用する。
4) トレーニング中, 各ステップでランダムに圧縮比をサンプリングし, 広範囲な圧縮構成をサポートするようモデルに教える。
文書理解や少数ショット学習,ニードル・イン・ア・ヘイスタックなど,最大トレーニング期間(20K)をはるかに超える長さ(例:128K)の長いコンテキストタスクに対して,広範囲にわたる評価を行う。
既存のメソッドはこれらの困難なタスクに対処するのに苦労しているが、Activation Beaconはさまざまなシナリオで非圧縮ベースラインに匹敵するパフォーマンスを維持しており、推論時間の2倍の高速化とKVキャッシュのメモリコストの8倍の削減を実現している。
我々のデータ、モデル、コードは、 \url{https://github.com/FlagOpen/FlagEmbedding/}でリリースされました。
関連論文リスト
- LLoCO: Learning Long Contexts Offline [63.3458260335454]
LLoCOは,LoRAを用いた文脈圧縮,検索,パラメータ効率の微調整を組み合わせた手法である。
我々は,LLoCOの長文質問応答データセットに対するアプローチを検証し,LLoCOが文脈内学習を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [67.39585115936329]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。