論文の概要: DAST: Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens
- arxiv url: http://arxiv.org/abs/2502.11493v1
- Date: Mon, 17 Feb 2025 06:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:32.173521
- Title: DAST: Context-Aware Compression in LLMs via Dynamic Allocation of Soft Tokens
- Title(参考訳): DAST: ソフトトークンの動的配置によるLCMの文脈認識圧縮
- Authors: Shaoshen Chen, Yangning Li, Zishan Xu, Yinghui Li, Xin Su, Zifei Shan, Hai-tao Zheng,
- Abstract要約: LLM(Large Language Models)は、長いコンテキスト入力を扱う際に、計算の非効率性と冗長な処理に直面する。
我々は,LLMの文脈関連性に関する本質的な理解を活用して圧縮を誘導する簡易かつ効果的な手法であるDAST(Dynamic Allocation of Soft Tokens)を提案する。
複数のベンチマークでの実験結果から、DASTが最先端の手法を超越していることが示されている。
- 参考スコア(独自算出の注目度): 20.044306399439265
- License:
- Abstract: Large Language Models (LLMs) face computational inefficiencies and redundant processing when handling long context inputs, prompting a focus on compression techniques. While existing semantic vector-based compression methods achieve promising performance, these methods fail to account for the intrinsic information density variations between context chunks, instead allocating soft tokens uniformly across context chunks. This uniform distribution inevitably diminishes allocation to information-critical regions. To address this, we propose Dynamic Allocation of Soft Tokens (DAST), a simple yet effective method that leverages the LLM's intrinsic understanding of contextual relevance to guide compression. DAST combines perplexity-based local information with attention-driven global information to dynamically allocate soft tokens to the informative-rich chunks, enabling effective, context-aware compression. Experimental results across multiple benchmarks demonstrate that DAST surpasses state-of-the-art methods.
- Abstract(参考訳): LLM(Large Language Models)は、長いコンテキスト入力を扱う際に、計算の非効率性と冗長な処理に直面し、圧縮技術に焦点をあてる。
既存の意味ベクトルベースの圧縮手法は有望な性能を達成するが、これらの手法はコンテキストチャンク間の固有情報密度の変動を考慮せず、コンテキストチャンク間でソフトトークンを均一に割り当てる。
この均一分布は、情報臨界領域への割り当てを必然的に減少させる。
そこで本研究では,LLMの文脈関連性に関する本質的な理解を活用して,圧縮をガイドする簡易かつ効果的な手法であるDASTを提案する。
DASTは、難易度に基づくローカル情報と注目駆動のグローバル情報を組み合わせて、情報量の多いチャンクにソフトトークンを動的に割り当て、効果的なコンテキスト認識圧縮を可能にする。
複数のベンチマークでの実験結果から、DASTが最先端の手法を超越していることが示されている。
関連論文リスト
- Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference [16.830389144259584]
文レベルのプロンプト圧縮技術である文脈対応プロンプト圧縮(CPC)を提案する。
鍵となる革新は、与えられた質問に対する各文の関連スコアを提供する新しい文脈対応の文エンコーダである。
提案手法は,ベンチマークデータセットの高速圧縮に関する先行研究をかなり上回っている。
論文 参考訳(メタデータ) (2024-09-02T13:02:51Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - In-context Autoencoder for Context Compression in a Large Language Model [70.7621953091318]
In-context Autoencoder (ICAE) を提案し、長いコンテキストを短いメモリスロットに圧縮する。
ICAEは、大量のテキストデータに基づく自動符号化と言語モデリングの両方の目的を用いて、まず事前訓練を行う。
論文 参考訳(メタデータ) (2023-07-13T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。