論文の概要: Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
- arxiv url: http://arxiv.org/abs/2401.03462v2
- Date: Fri, 2 Feb 2024 12:34:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 18:52:18.554176
- Title: Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
- Title(参考訳): 4kから400kへ:アクティベーションビーコンでllmのコンテキストを拡張する
- Authors: Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng
Dou
- Abstract要約: 本稿では, LLMの生活性化をコンパクトな形式に凝縮する Activation Beacon という新しい手法を提案する。
Activation Beaconは、LLMの本来の機能を短いコンテキストで完全に保存するプラグインモジュールとして導入された。
我々の実験は、アクティベーション・ビーコンの文脈拡張の有効性を検証し、Llama-2-7Bの文脈の質の高い拡張を$times100$倍で達成できることを示した。
- 参考スコア(独自算出の注目度): 23.369013431288998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The utilization of long contexts poses a big challenge for LLMs due to their
limited context window size. Although the context window can be extended
through fine-tuning, it will result in a considerable cost at both training and
inference time, and exert an unfavorable impact to the LLM's original
capabilities. In this work, we propose a new method called Activation Beacon,
which condenses LLM's raw activations into compact forms such that the LLM can
perceive a longer context with a limited context window. Activation Beacon is
introduced as a plug-in module, which fully preserves the LLM's original
capability in short contexts. It works with the sliding window to streamingly
process the long context, which leads to a competitive memory and time
efficiency in both training and inference. Activation Beacon is trained with
short-sequence data of diversified condensing ratios. Thanks to such a
treatment, it can be effectively learned to support different context lengths
with a small training cost. Our experiment verifies Activation Beacon's
effectiveness of context extension: it can remarkably accomplish high-quality
extension of Llama-2-7B's context by $\times100$ times (from 4K to 400K);
meanwhile, it can also achieve superior performances across a variety of
long-context language modeling and understanding tasks. The source code and
model checkpoint are available at
\url{https://github.com/FlagOpen/FlagEmbedding}.
- Abstract(参考訳): 長いコンテキストの利用は、コンテキストウィンドウのサイズが限られているため、LLMにとって大きな課題となる。
コンテキストウィンドウは微調整で拡張できるが、トレーニングと推論の時間の両方でかなりのコストがかかり、LLMの本来の能力に好ましくない影響を及ぼすことになる。
本研究では, LLMの生の活性化をコンパクトな形式に凝縮し, LLMが限られたコンテキストウィンドウでより長いコンテキストを知覚できるようにする Activation Beacon という手法を提案する。
Activation Beaconは、LLMの本来の機能を短いコンテキストで完全に保存するプラグインモジュールとして導入された。
長いコンテキストをストリーミング処理するためにスライディングウィンドウで動作するため、トレーニングと推論の両方において、競合するメモリと時間の効率が向上します。
活性化ビーコンは多様な凝縮比の短系列データを用いて訓練される。
このような治療のおかげで、少ないトレーニングコストで異なるコンテキスト長をサポートすることが効果的に学べる。
私たちの実験では、アクティベーションビーコンがコンテキスト拡張の有効性を検証する。llama-2-7bのコンテキストの高品質な拡張を(4kから400kまで)$\times100$で驚くほど達成することができる一方で、さまざまな長文言語モデリングとタスク理解において優れたパフォーマンスを達成できる。
ソースコードとモデルチェックポイントは \url{https://github.com/FlagOpen/FlagEmbedding} で入手できる。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning [11.167198972934736]
GPT-4のような大規模言語モデル(LLM)は、最適なパフォーマンスに必要なプロンプトのサイズが急増した。
本稿では,RLに基づくタスク認識プロンプト圧縮手法を提案する。
我々は,RL誘導圧縮法により,最先端圧縮技術よりもタスク性能が8%から260%向上することが実証された。
論文 参考訳(メタデータ) (2024-09-19T18:11:59Z) - LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。
本質的な情報を保持しながら、即時長を短縮する。
既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文 参考訳(メタデータ) (2024-09-01T22:09:20Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural
Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。
NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。
GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文 参考訳(メタデータ) (2021-05-30T07:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。