論文の概要: Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
- arxiv url: http://arxiv.org/abs/2401.03462v1
- Date: Sun, 7 Jan 2024 11:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:49:50.047440
- Title: Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
- Title(参考訳): 4kから400kへ:アクティベーションビーコンでllmのコンテキストを拡張する
- Authors: Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng
Dou
- Abstract要約: Activation Beacon は LLM のプラグイン・アンド・プレイモジュールとして導入された。
LLMの本来の機能を短いコンテキストで完全に保存し、長いコンテキストを処理する上で新しい機能を拡張する。
1台の8xA800 GPUマシンで9時間未満の時間を消費する10Kステップで、短いシーケンスデータで効率的にトレーニングすることができる。
- 参考スコア(独自算出の注目度): 23.369013431288998
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The utilization of long contexts poses a big challenge for large language
models due to their limited context window length. Although the context window
can be extended through fine-tuning, it will result in a considerable cost at
both training and inference time, and exert an unfavorable impact to the LLM's
original capabilities. In this work, we propose Activation Beacon, which
condenses LLM's raw activations into more compact forms such that it can
perceive a much longer context with a limited context window. Activation Beacon
is introduced as a plug-and-play module for the LLM. It fully preserves the
LLM's original capability on short contexts while extending the new capability
on processing longer contexts. Besides, it works with short sliding windows to
process the long context, which achieves a competitive memory and time
efficiency in both training and inference. Activation Beacon is learned by the
auto-regression task conditioned on a mixture of beacons with diversified
condensing ratios. Thanks to such a treatment, it can be efficiently trained
purely with short-sequence data in just 10K steps, which consumes less than 9
hours on a single 8xA800 GPU machine. The experimental studies show that
Activation Beacon is able to extend Llama-2-7B's context length by $\times100$
times (from 4K to 400K), meanwhile achieving a superior result on both
long-context generation and understanding tasks. Our model and code will be
available at the BGE repository.
- Abstract(参考訳): 長いコンテキストの利用は、コンテキストウィンドウの長さが限られているため、大きな言語モデルにとって大きな課題となる。
コンテキストウィンドウは微調整で拡張できるが、トレーニングと推論の時間の両方でかなりのコストがかかり、LLMの本来の能力に好ましくない影響を及ぼすことになる。
本研究では, LLM の生活性化をよりコンパクトな形式に凝縮し, 限られたコンテキストウィンドウでより長いコンテキストを知覚できる Activation Beacon を提案する。
Activation Beacon は LLM のプラグイン・アンド・プレイモジュールとして導入された。
LLMの本来の機能を短いコンテキストで完全に保存し、長いコンテキストを処理する上で新しい機能を拡張する。
さらに、短いスライディングウィンドウを使って長いコンテキストを処理し、トレーニングと推論の両方において競合するメモリと時間の効率を達成する。
アクティベーションビーコンは、ビーコンと多量凝縮比の混合により条件付けられた自己回帰タスクによって学習される。
このような処理のおかげで、1台の8xa800 gpuマシンで9時間未満の、わずか10kステップの短いシーケンスデータで、効率的にトレーニングすることができる。
実験により、アクティベーションビーコンはLlama-2-7Bのコンテキスト長を$\times100$(4Kから400K)で拡張でき、長いコンテキスト生成と理解タスクの両方において優れた結果が得られることが示された。
私たちのモデルとコードは、BGEリポジトリで利用可能になります。
関連論文リスト
- LLoCO: Learning Long Contexts Offline [63.3458260335454]
LLoCOは,LoRAを用いた文脈圧縮,検索,パラメータ効率の微調整を組み合わせた手法である。
我々は,LLoCOの長文質問応答データセットに対するアプローチを検証し,LLoCOが文脈内学習を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - Extending LLMs' Context Window with 100 Samples [42.52554295241792]
LLM(Large Language Models)は、事前訓練されたコンテキストウィンドウを超えて、外挿能力に制限があることが知られている。
最近の研究は回転位置埋め込み(RoPE)を改良してコンテキストウィンドウを拡張しようとしている。
我々は、RoPEのベース周波数の調整と注意ログのスケーリングを組み合わせて、LLMがより大きなコンテキストウインドウに効率的に適応するのに役立つ新しい拡張をRoPEに導入する。
論文 参考訳(メタデータ) (2024-01-13T07:57:01Z) - LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning [70.29860436274241]
LLMには、微調整なしで長いコンテキストを処理できる固有の能力がある、と我々は主張する。
バイレベルアテンション情報を構築することで,LLMのコンテキストウィンドウを拡張するためのSelfExtendを提案する。
複数のベンチマークで包括的な実験を行い、その結果、既存のLLMのコンテキストウィンドウ長を効果的に拡張できることが示されている。
論文 参考訳(メタデータ) (2024-01-02T18:30:51Z) - CLEX: Continuous Length Extrapolation for Large Language Models [68.43814043853347]
大規模言語モデル(LLM)のためのCLEX(Continuous Longth Extrapolation)を提案する。
CLEXはコンテキストウィンドウを4倍または8倍のトレーニング長に拡張するが、性能は劣化しない。
我々のモデルは4k長でトレーニングされ、最先端のオープンソースモデルに対して最大32k長でトレーニングされた。
論文 参考訳(メタデータ) (2023-10-25T08:13:02Z) - Retrieval meets Long Context Large Language Models [59.431200671427064]
大規模言語モデル(LLM)のコンテキストウィンドウの拡張が最近人気を集めている。
Retrieval-augmentation対ロングコンテキストウィンドウ。
両方の方法を組み合わせることで、両方の世界を最大限に活用できますか?
我々の最良モデルである32Kコンテキストウィンドウ付きLlama2-70Bは、9つの長いコンテキストタスクの平均スコアにおいて、GPT-3.5-turbo-16kとDavinci003より優れています。
論文 参考訳(メタデータ) (2023-10-04T17:59:41Z) - LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models [67.58275666573496]
LongLoRAは、トレーニング済みの大規模言語モデルのコンテキストサイズを拡張する、効率的な微調整アプローチである。
7B/13Bから70BまでのLlama2モデル上での各種タスクに対する実験結果が強かった。
論文 参考訳(メタデータ) (2023-09-21T17:59:11Z) - PoSE: Efficient Context Window Extension of LLMs via Positional
Skip-wise Training [91.99700930388998]
固定されたコンテキストウィンドウを用いて長い入力をシミュレートする位置スキップ-wisEトレーニングを提案する。
PoSEはフル長の微調整に比べてメモリと時間オーバーヘッドを大幅に削減する。
2kのトレーニングコンテキストウィンドウを使用して,LLaMAモデルを128kトークンに拡張した。
論文 参考訳(メタデータ) (2023-09-19T08:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。