論文の概要: PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2503.23274v1
- Date: Sun, 30 Mar 2025 01:47:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.027704
- Title: PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient Large Language Model Inference
- Title(参考訳): PromptDistill: 高速大言語モデル推論のための中間層におけるクエリベースの選択トークン保持
- Authors: Weisheng Jin, Maojia Song, Tej Deep Pala, Yew Ken Chia, Amir Zadeh, Chuan Li, Soujanya Poria,
- Abstract要約: 生成品質を維持しながら推論効率を向上させる訓練不要な方法であるPromptDistillを提案する。
PromptDistillは、初期層の注意相互作用を活用して、隠れた状態を保ちながら、後の層の計算負担を軽減することで、最も有益なトークンを特定し、保持する。
- 参考スコア(独自算出の注目度): 23.828853446344663
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As large language models (LLMs) tackle increasingly complex tasks and longer documents, their computational and memory costs during inference become a major bottleneck. To address this, we propose PromptDistill, a novel, training-free method that improves inference efficiency while preserving generation quality. PromptDistill identifies and retains the most informative tokens by leveraging attention interactions in early layers, preserving their hidden states while reducing the computational burden in later layers. This allows the model to focus on essential contextual information without fully processing all tokens. Unlike previous methods such as H2O and SnapKV, which perform compression only after processing the entire input, or GemFilter, which selects a fixed portion of the initial prompt without considering contextual dependencies, PromptDistill dynamically allocates computational resources to the most relevant tokens while maintaining a global awareness of the input. Experiments using our method and baseline approaches with base models such as LLaMA 3.1 8B Instruct, Phi 3.5 Mini Instruct, and Qwen2 7B Instruct on benchmarks including LongBench, InfBench, and Needle in a Haystack demonstrate that PromptDistill significantly improves efficiency while having minimal impact on output quality compared to the original models. With a single-stage selection strategy, PromptDistill effectively balances performance and efficiency, outperforming prior methods like GemFilter, H2O, and SnapKV due to its superior ability to retain essential information. Specifically, compared to GemFilter, PromptDistill achieves an overall $1\%$ to $5\%$ performance improvement while also offering better time efficiency. Additionally, we explore multi-stage selection, which further improves efficiency while maintaining strong generation performance.
- Abstract(参考訳): 大規模言語モデル(LLM)がますます複雑なタスクや長いドキュメントに取り組むにつれ、推論時の計算コストとメモリコストがボトルネックとなる。
そこで本研究では,生成品質を保ちながら推論効率を向上させる新しいトレーニング不要手法であるPromptDistillを提案する。
PromptDistillは、初期層の注意相互作用を活用して、隠れた状態を保ちながら、後の層の計算負担を軽減することで、最も有益なトークンを特定し、保持する。
これにより、すべてのトークンを完全に処理することなく、本質的なコンテキスト情報に集中することが可能になります。
入力全体を処理した後のみ圧縮を行うH2OやSnapKVや、コンテキスト依存を考慮せずに初期プロンプトの固定部分を選択するGemFilterのような従来の方法とは異なり、PromptDistillは、入力のグローバルな認識を維持しながら、計算リソースを最も関連するトークンに動的に割り当てる。
LLaMA 3.1 8B Instruct, Phi 3.5 Mini Instruct, Qwen2 7B Instruct on benchmarks, LongBench, InfBench, Needle in a Haystack を用いた実験により, PromptDistill は原モデルと比較して出力品質に最小限の影響を与えながら効率を著しく向上することを示した。
単一ステージの選択戦略により、PromptDistillはパフォーマンスと効率のバランスを効果的に保ち、GemFilter、H2O、SnapKVといった従来の手法よりも優れた情報保持能力を持つ。
具体的には、GemFilterと比較して、PromptDistillは、全体的な1\%$から5\%$パフォーマンスの改善を達成すると同時に、より優れた時間効率を提供する。
さらに, 高い生成性能を維持しつつ, 効率を向上する多段階選択について検討する。
関連論文リスト
- Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Achieving More with Less: Additive Prompt Tuning for Rehearsal-Free Class-Incremental Learning [76.32953653161417]
クラス増分学習は、モデルが学習したクラスの知識を保持しながら、新しいクラスを段階的に学習することを可能にする。
この分野での最近の進歩はパラメータ効率のよい微調整技術へと移行している。
本稿では,現在のアプローチの限界に対処する新しいプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2025-03-11T02:27:37Z) - Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference [6.699062502635993]
長文入力は大規模言語モデル(LLM)の有効活用に不可欠である
圧縮されたプロンプト内にキー情報を保持できる,効率的な訓練不要なプロンプト圧縮手法を提案する。
我々は,LLMの入力プロンプトを高速に「スキムスルー」できる評価器ヘッドベースプロンプト圧縮を開発した。
論文 参考訳(メタデータ) (2025-01-22T15:33:17Z) - Compressing KV Cache for Long-Context LLM Inference with Inter-Layer Attention Similarity [24.118503938098307]
選択トークン保持やウィンドウベースアテンションを含む既存の手法では、効率は向上するが、将来のテキスト生成に必要な重要なトークンを破棄するリスクがある。
トークンを破棄するのではなく、重要でないトークンのメモリと計算負荷を削減し、トークンロスを伴わずにLCM効率を向上させるアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-03T08:29:27Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - StreamFP: Learnable Fingerprint-guided Data Selection for Efficient Stream Learning [26.832497051355553]
ストリーム学習(SL)は、継続的に進化するデータに迅速に適応できるモデルを必要とする。
従来のルールベースのデータ選択手法は、ストリーミングデータの動的な性質に対応するのに苦労する。
データ分散の変化に対処する最近のアプローチは、速いペースの環境での有効性を制限する課題に直面している。
論文 参考訳(メタデータ) (2024-06-11T10:46:41Z) - REP: Resource-Efficient Prompting for Rehearsal-Free Continual Learning [23.92661395403251]
近年のリハーサルフリーな手法は,視覚関連連続学習(CL)とドリフトデータに優れ,資源効率に欠ける。
本稿では,Resource-Efficient Prompting(REP)を提案する。
提案手法は高速なプロンプト選択を用いて、注意深く設定されたモデルを用いて入力データを洗練する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers [29.319666323947708]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。