Fugu-MT 論文翻訳(概要): Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon

論文の概要: Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon

arxiv url: http://arxiv.org/abs/2401.03462v1
Date: Sun, 7 Jan 2024 11:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 18:49:50.047440
Title: Soaring from 4K to 400K: Extending LLM's Context with Activation Beacon
Title（参考訳）: 4kから400kへ:アクティベーションビーコンでllmのコンテキストを拡張する
Authors: Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou
Abstract要約: Activation Beacon は LLM のプラグイン・アンド・プレイモジュールとして導入された。 LLMの本来の機能を短いコンテキストで完全に保存し、長いコンテキストを処理する上で新しい機能を拡張する。 1台の8xA800 GPUマシンで9時間未満の時間を消費する10Kステップで、短いシーケンスデータで効率的にトレーニングすることができる。
参考スコア（独自算出の注目度）: 23.369013431288998
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The utilization of long contexts poses a big challenge for large language models due to their limited context window length. Although the context window can be extended through fine-tuning, it will result in a considerable cost at both training and inference time, and exert an unfavorable impact to the LLM's original capabilities. In this work, we propose Activation Beacon, which condenses LLM's raw activations into more compact forms such that it can perceive a much longer context with a limited context window. Activation Beacon is introduced as a plug-and-play module for the LLM. It fully preserves the LLM's original capability on short contexts while extending the new capability on processing longer contexts. Besides, it works with short sliding windows to process the long context, which achieves a competitive memory and time efficiency in both training and inference. Activation Beacon is learned by the auto-regression task conditioned on a mixture of beacons with diversified condensing ratios. Thanks to such a treatment, it can be efficiently trained purely with short-sequence data in just 10K steps, which consumes less than 9 hours on a single 8xA800 GPU machine. The experimental studies show that Activation Beacon is able to extend Llama-2-7B's context length by $\times100$ times (from 4K to 400K), meanwhile achieving a superior result on both long-context generation and understanding tasks. Our model and code will be available at the BGE repository.
Abstract（参考訳）: 長いコンテキストの利用は、コンテキストウィンドウの長さが限られているため、大きな言語モデルにとって大きな課題となる。コンテキストウィンドウは微調整で拡張できるが、トレーニングと推論の時間の両方でかなりのコストがかかり、LLMの本来の能力に好ましくない影響を及ぼすことになる。本研究では, LLM の生活性化をよりコンパクトな形式に凝縮し, 限られたコンテキストウィンドウでより長いコンテキストを知覚できる Activation Beacon を提案する。 Activation Beacon は LLM のプラグイン・アンド・プレイモジュールとして導入された。 LLMの本来の機能を短いコンテキストで完全に保存し、長いコンテキストを処理する上で新しい機能を拡張する。さらに、短いスライディングウィンドウを使って長いコンテキストを処理し、トレーニングと推論の両方において競合するメモリと時間の効率を達成する。アクティベーションビーコンは、ビーコンと多量凝縮比の混合により条件付けられた自己回帰タスクによって学習される。このような処理のおかげで、1台の8xa800 gpuマシンで9時間未満の、わずか10kステップの短いシーケンスデータで、効率的にトレーニングすることができる。実験により、アクティベーションビーコンはLlama-2-7Bのコンテキスト長を$\times100$(4Kから400K)で拡張でき、長いコンテキスト生成と理解タスクの両方において優れた結果が得られることが示された。私たちのモデルとコードは、BGEリポジトリで利用可能になります。

関連論文リスト

Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
Understanding and Improving Information Preservation in Prompt Compression for LLMs [10.912320980464571]
情報集約的なタスクでは、プロンプト長は急速に増加し、計算要求の増大、性能劣化、無関係または冗長な情報からのバイアスが引き起こされる。本稿では,プロンプト圧縮手法の詳細な解析を可能にする総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T20:06:11Z)
Beyond RAG: Task-Aware KV Cache Compression for Comprehensive Knowledge Reasoning [23.376181947937788]
ゼロまたは少数ショット設定で外部知識を圧縮するタスク対応キー値(KV)キャッシュ圧縮を提案する。実験の結果,本手法はRAG法とタスク非依存圧縮法の両方に優れていた。合成データセットは、粗いエビデンスで十分であるのに対して、タスク認識圧縮は幅広い知識タスクに優れていることを強調している。
論文参考訳（メタデータ） (2025-03-06T21:07:41Z)
Robust and Transferable Backdoor Attacks Against Deep Image Compression With Selective Frequency Prior [118.92747171905727]
本稿では,学習画像の圧縮モデルに複数のトリガを付加したバックドアアタックを起動するための新しい周波数ベースのトリガインジェクションモデルを提案する。 1) 圧縮品質をビットレートと再現精度で劣化させる,2) 顔認識やセマンティックセグメンテーションといったタスク駆動型対策を目標とする,様々なシナリオに適した攻撃目標を設計する。実験の結果, トリガーインジェクションモデルと, エンコーダパラメータの微調整を組み合わせることで, 複数のバックドアとトリガーを1つの圧縮モデルに注入することができた。
論文参考訳（メタデータ） (2024-12-02T15:58:40Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning [11.167198972934736]
GPT-4のような大規模言語モデル(LLM)は、最適なパフォーマンスに必要なプロンプトのサイズが急増した。本稿では,RLに基づくタスク認識プロンプト圧縮手法を提案する。我々は,RL誘導圧縮法により,最先端圧縮技術よりもタスク性能が8%から260%向上することが実証された。
論文参考訳（メタデータ） (2024-09-19T18:11:59Z)
LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。本質的な情報を保持しながら、即時長を短縮する。既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文参考訳（メタデータ） (2024-09-01T22:09:20Z)
Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T10:36:43Z)
Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文参考訳（メタデータ） (2024-07-05T05:55:18Z)
In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文参考訳（メタデータ） (2024-06-19T15:14:55Z)
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:56Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)
Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。圧縮アルゴリズムの3つの共通クラスを実装し,評価する。我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文参考訳（メタデータ） (2023-01-06T18:58:09Z)
NAS-BERT: Task-Agnostic and Adaptive-Size BERT Compression with Neural Architecture Search [100.71365025972258]
BERT圧縮の効率的な手法であるNAS-BERTを提案する。 NAS-BERTは、検索空間上で大きなスーパーネットをトレーニングし、適応的なサイズとレイテンシを持つ複数の圧縮モデルを出力する。 GLUEとSQuADベンチマークデータセットの実験は、NAS-BERTが以前のアプローチよりも高精度で軽量なモデルを見つけることができることを示した。
論文参考訳（メタデータ） (2021-05-30T07:20:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。