論文の概要: Dynamic Compressing Prompts for Efficient Inference of Large Language Models
- arxiv url: http://arxiv.org/abs/2504.11004v1
- Date: Tue, 15 Apr 2025 09:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:11:55.565580
- Title: Dynamic Compressing Prompts for Efficient Inference of Large Language Models
- Title(参考訳): 大規模言語モデルの効率的な推論のための動的圧縮プロンプト
- Authors: Jinwu Hu, Wei Zhang, Yufeng Wang, Yu Hu, Bin Xiao, Mingkui Tan, Qing Du,
- Abstract要約: 大規模言語モデル(LLM)は、高度なプロンプト技術のために、様々なタスクで優れたパフォーマンスを示している。
プロンプト圧縮は簡単な解決策だが、既存の手法では、重要な情報を保持し、状況の変化に適応し、異なるタスクにまたがって効果的を維持するという課題に直面している。
本手法は,性能を最大限に保ちつつ,プロンプトトークンの数を削減する。
- 参考スコア(独自算出の注目度): 38.604760935983364
- License:
- Abstract: Large Language Models (LLMs) have shown outstanding performance across a variety of tasks, partly due to advanced prompting techniques. However, these techniques often require lengthy prompts, which increase computational costs and can hinder performance because of the limited context windows of LLMs. While prompt compression is a straightforward solution, existing methods confront the challenges of retaining essential information, adapting to context changes, and remaining effective across different tasks. To tackle these issues, we propose a task-agnostic method called Dynamic Compressing Prompts (LLM-DCP). Our method reduces the number of prompt tokens while aiming to preserve the performance as much as possible. We model prompt compression as a Markov Decision Process (MDP), enabling the DCP-Agent to sequentially remove redundant tokens by adapting to dynamic contexts and retaining crucial content. We develop a reward function for training the DCP-Agent that balances the compression rate, the quality of the LLM output, and the retention of key information. This allows for prompt token reduction without needing an external black-box LLM. Inspired by the progressive difficulty adjustment in curriculum learning, we introduce a Hierarchical Prompt Compression (HPC) training strategy that gradually increases the compression difficulty, enabling the DCP-Agent to learn an effective compression method that maintains information integrity. Experiments demonstrate that our method outperforms state-of-the-art techniques, especially at higher compression rates. The code for our approach will be available at https://github.com/Fhujinwu/DCP.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高度なプロンプト技術のために、様々なタスクで優れたパフォーマンスを示している。
しかし、これらの手法は長いプロンプトを必要とすることが多く、計算コストが増大し、LLMのコンテキストウィンドウが限られているため性能が低下する可能性がある。
プロンプト圧縮は簡単な解決策だが、既存の手法では、重要な情報を保持し、状況の変化に適応し、異なるタスクにまたがって効果的を維持するという課題に直面している。
これらの課題に対処するために,動的圧縮プロンプト (LLM-DCP) と呼ばれるタスク非依存の手法を提案する。
本手法は,性能を最大限に保ちつつ,プロンプトトークンの数を削減する。
我々は、圧縮をマルコフ決定プロセス(MDP)としてモデル化し、動的コンテキストに適応し、重要なコンテンツを保持することで、DCP-Agentが順次冗長トークンを除去できるようにする。
我々は、圧縮率、LCM出力の品質、キー情報の保持のバランスをとるDCP-Agentを訓練するための報酬関数を開発する。
これにより、外部のブラックボックス LLM を必要とせずに、トークンを即座に削減できる。
カリキュラム学習における漸進的難易度調整に着想を得て,段階的に圧縮困難を増大させる階層型プロンプト圧縮(HPC)学習戦略を導入し,情報整合性を維持する効果的な圧縮法をDCP-Agentが学習できるようにする。
実験により,本手法は最先端技術,特に高い圧縮速度で性能を向上することが示された。
このアプローチのコードはhttps://github.com/Fhujinwu/DCP.comで公開されます。
関連論文リスト
- Efficient and Effective Prompt Tuning via Prompt Decomposition and Compressed Outer Product [8.014705094248589]
低パラメータプロンプトチューニング法は、PT法とLoRA法で性能と効率を向上する。
6つのアーキテクチャと8つのデータセットにわたる実験により、LAMPはパフォーマンスと効率において、最先端のPTベースのメソッドとLoRAベースのメソッドより優れていることが示された。
論文 参考訳(メタデータ) (2025-02-16T05:50:12Z) - ICPC: In-context Prompt Compression with Faster Inference [0.0]
I CPC(In-context Prompt Compression)は,新規かつスケーラブルなプロンプト圧縮手法であり,プロンプト長を適応的に削減する。
I CPCの鍵となる考え方は、エンコーダを用いてプロンプトに現れる各単語の確率を計算し、情報関数を介して各単語が持つ情報を計算することである。
実験により、I CPCは、異なるカテゴリの長いテキストを効果的に圧縮し、異なるタイプのNLPタスクにおいてより優れた性能と速度を実現することができることを示した。
論文 参考訳(メタデータ) (2025-01-03T03:46:51Z) - Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability [67.77534983324229]
本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。
実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。
以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
論文 参考訳(メタデータ) (2024-10-15T17:05:25Z) - TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning [11.167198972934736]
GPT-4のような大規模言語モデル(LLM)は、最適なパフォーマンスに必要なプロンプトのサイズが急増した。
本稿では,RLに基づくタスク認識プロンプト圧縮手法を提案する。
我々は,RL誘導圧縮法により,最先端圧縮技術よりもタスク性能が8%から189%向上することが実証された。
論文 参考訳(メタデータ) (2024-09-19T18:11:59Z) - LanguaShrink: Reducing Token Overhead with Psycholinguistics [8.123272461141815]
LanguaShrinkは、大規模言語モデルの即時圧縮フレームワークである。
本質的な情報を保持しながら、即時長を短縮する。
既存のプロンプト圧縮手法と比較して、LanguaShrinkはエンドツーエンドのレイテンシを1.43倍改善している。
論文 参考訳(メタデータ) (2024-09-01T22:09:20Z) - PECTP: Parameter-Efficient Cross-Task Prompts for Incremental Vision Transformer [76.39111896665585]
インクリメンタルラーニング(IL)は、シーケンシャルタスクの深いモデルを継続的に学習することを目的としている。
近年の大規模事前訓練モデル (PTM) は, 従来の試料を含まない実用ILにおいて, 即時的手法により優れた性能を発揮している。
論文 参考訳(メタデータ) (2024-07-04T10:37:58Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - Discrete Prompt Compression with Reinforcement Learning [2.664293070994717]
Compressed prompts aid instruction-tuned language model (LM) inovercoming context window limit and reduce computational cost。
既存のメソッドは、主にトレーニングの埋め込みに基づいているが、解釈可能性、埋め込みトークンの固定数、異なるLM間の再利用性、ブラックボックスAPIとのインタラクションにおける適用性など、さまざまな課題に直面している。
本研究では,これらの問題に対処する離散的プロンプト圧縮法であるPCRLを用いた即時圧縮を提案する。
論文 参考訳(メタデータ) (2023-08-17T03:10:17Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。