論文の概要: EFPC: Towards Efficient and Flexible Prompt Compression
- arxiv url: http://arxiv.org/abs/2503.07956v1
- Date: Tue, 11 Mar 2025 01:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:02.618055
- Title: EFPC: Towards Efficient and Flexible Prompt Compression
- Title(参考訳): EFPC: 効率的でフレキシブルなprompt圧縮を目指す
- Authors: Yun-Hao Cao, Yangsong Wang, Shuzheng Hao, Zhenxing Li, Chengjun Zhan, Sichao Liu, Yi-Qi Hu,
- Abstract要約: 本稿では,タスク認識とタスク非依存の圧縮を統一する新しい手法である,効率よくフレキシブルなプロンプト圧縮(EFPC)を提案する。
EFPCはGPT-4を使用して圧縮プロンプトを生成し、トレーニング用のオリジナルのプロンプトと統合する。
最先端のLLMLingua-2と比較して、EFPCはF1スコアの4.8%の相対的な改善を達成し、4倍の圧縮レートで1%の追加データ、LongBenchシングルドックQAベンチマークで10%追加データで11.4%のゲインを得た。
- 参考スコア(独自算出の注目度): 7.89983109480132
- License:
- Abstract: The emergence of large language models (LLMs) like GPT-4 has revolutionized natural language processing (NLP), enabling diverse, complex tasks. However, extensive token counts lead to high computational and financial burdens. To address this, we propose Efficient and Flexible Prompt Compression (EFPC), a novel method unifying task-aware and task-agnostic compression for a favorable accuracy-efficiency trade-off. EFPC uses GPT-4 to generate compressed prompts and integrates them with original prompts for training. During training and inference, we selectively prepend user instructions and compress prompts based on predicted probabilities. EFPC is highly data-efficient, achieving significant performance with minimal data. Compared to the state-of-the-art method LLMLingua-2, EFPC achieves a 4.8% relative improvement in F1-score with 1% additional data at a 4x compression rate, and an 11.4% gain with 10% additional data on the LongBench single-doc QA benchmark. EFPC's unified framework supports broad applicability and enhances performance across various models, tasks, and domains, offering a practical advancement in NLP.
- Abstract(参考訳): GPT-4のような大規模言語モデル(LLM)の出現は自然言語処理(NLP)に革命をもたらし、多様な複雑なタスクを可能にした。
しかし、広範囲のトークンカウントは、高い計算と財政的負担をもたらす。
そこで本研究では,タスク認識とタスク非依存圧縮を両立させる手法であるEFPC(Efficient and Flexible Prompt Compression)を提案する。
EFPCはGPT-4を使用して圧縮プロンプトを生成し、トレーニング用のオリジナルのプロンプトと統合する。
トレーニングと推論の間、予測された確率に基づいてユーザー命令を選択的にプリペイドし、プロンプトを圧縮する。
EFPCはデータ効率が高く、最小限のデータで大きなパフォーマンスを実現している。
最先端のLLMLingua-2と比較して、EFPCはF1スコアの4.8%の相対的な改善を達成し、4倍の圧縮レートで1%の追加データ、LongBenchシングルドックQAベンチマークで10%追加データで11.4%のゲインを得た。
EFPCの統一フレームワークは、幅広い適用性をサポートし、様々なモデル、タスク、ドメインのパフォーマンスを高め、NLPの実用的な進歩を提供する。
関連論文リスト
- Adaptive Rank Allocation for Federated Parameter-Efficient Fine-Tuning of Language Models [40.69348434971122]
本稿では,パラメータ効率の高い言語モデルの微調整のための新しい適応ランクアロケーションフレームワークであるFedARAを提案する。
FedARAは、ヘテロジニアスなデータの下で、さまざまなデータセットやモデルに対して平均6.95%から8.49%のベースラインを一貫して上回っている。
各種エッジデバイスの実験では、それぞれ48.90%、46.95%のトレーニング時間とエネルギー消費が大幅に減少している。
論文 参考訳(メタデータ) (2025-01-24T11:19:07Z) - Efficient Prompt Compression with Evaluator Heads for Long-Context Transformer Inference [6.699062502635993]
長文入力は大規模言語モデル(LLM)の有効活用に不可欠である
圧縮されたプロンプト内にキー情報を保持できる,効率的な訓練不要なプロンプト圧縮手法を提案する。
我々は,LLMの入力プロンプトを高速に「スキムスルー」できる評価器ヘッドベースプロンプト圧縮を開発した。
論文 参考訳(メタデータ) (2025-01-22T15:33:17Z) - Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability [67.77534983324229]
本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。
実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。
以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
論文 参考訳(メタデータ) (2024-10-15T17:05:25Z) - Exploring Parameter-Efficient Fine-Tuning of Large Language Model on Automated Program Repair [5.6679735367798925]
事前学習・微調整」パラダイムにより、大規模言語モデル(LLM)が自動プログラム修復(APR)の修正能力を向上できる
我々はまず,このギャップを埋めるために,インストラクションデータセットであるAPR-INSTRUCTIONを作成するために,プロンプトエンジニアリングを採用している。
最高の微調整モデルでは、最先端のLLMベースのAPR技術よりも58%多くのバグが修正されている。
論文 参考訳(メタデータ) (2024-06-09T04:42:19Z) - GKT: A Novel Guidance-Based Knowledge Transfer Framework For Efficient Cloud-edge Collaboration LLM Deployment [74.40196814292426]
本稿では,新規かつ直感的なガイダンスベース知識伝達(GKT)フレームワークを提案する。
GKTは'teacher'として大きな言語モデルを使用し、ガイダンスプロンプトを生成し、より小さな'student'モデルと組み合わせて応答を確定する。
GSM8Kの最大精度は14.18%、GSM8Kの10.72倍、精度は14.00%、CSQAの7.73倍である。
論文 参考訳(メタデータ) (2024-05-30T02:37:35Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - ComPEFT: Compression for Communicating Parameter Efficient Updates via
Sparsification and Quantization [100.90624220423634]
PEFTモデルにおける微調整残差(タスクベクトル)を圧縮する新しい手法であるComPEFTを提案する。
200M - 65Bパラメータを持つT5, T0, LLaMA ベースのモデルにおいて, ComPEFT は圧縮比 8x - 50x を達成する。
論文 参考訳(メタデータ) (2023-11-22T05:28:59Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。