Fugu-MT 論文翻訳(概要): Learning to Compress Prompts with Gist Tokens

論文の概要: Learning to Compress Prompts with Gist Tokens

arxiv url: http://arxiv.org/abs/2304.08467v3
Date: Mon, 12 Feb 2024 19:03:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 20:07:06.074056
Title: Learning to Compress Prompts with Gist Tokens
Title（参考訳）: gistトークンでプロンプトを圧縮する学習
Authors: Jesse Mu, Xiang Lisa Li, Noah Goodman
Abstract要約: 我々は、LMにプロンプトを小さな"gist"トークンセットに圧縮するよう訓練するgistingを提案する。 decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの最大26倍の圧縮を可能にする。
参考スコア（独自算出の注目度）: 16.64173373856
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prompting is the primary way to utilize the multitask capabilities of language models (LMs), but prompts occupy valuable space in the input context window, and repeatedly encoding the same prompt is computationally inefficient. Finetuning and distillation methods allow for specialization of LMs without prompting, but require retraining the model for each task. To avoid this trade-off entirely, we present gisting, which trains an LM to compress prompts into smaller sets of "gist" tokens which can be cached and reused for compute efficiency. Gist models can be trained with no additional cost over standard instruction finetuning by simply modifying Transformer attention masks to encourage prompt compression. On decoder (LLaMA-7B) and encoder-decoder (FLAN-T5-XXL) LMs, gisting enables up to 26x compression of prompts, resulting in up to 40% FLOPs reductions, 4.2% wall time speedups, and storage savings, all with minimal loss in output quality.
Abstract（参考訳）: プロンプトは言語モデル(lms)のマルチタスク機能を利用する主要な方法であるが、プロンプトは入力コンテキストウィンドウの貴重なスペースを占め、同じプロンプトを繰り返しエンコーディングすることは計算量的に非効率である。微粒化および蒸留法は、LMをプロンプトせずに特殊化することができるが、各タスクのモデルを再訓練する必要がある。このトレードオフを完全に回避するために、我々はLMにプロンプトを圧縮するよう訓練するgistingを、キャッシュし、計算効率を高めるために再利用できる"gist"トークンの小さなセットに提示する。 gistモデルは、プロンプト圧縮を促進するために変圧器アテンションマスクを単純に変更することで、標準命令の微調整よりも追加コストなしでトレーニングすることができる。 decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの最大26倍の圧縮が可能で、最大40%のFLOPs削減、4.2%のウォールタイムスピードアップ、ストレージセーブが可能で、出力品質の損失は最小限である。

関連論文リスト

CODEPROMPTZIP: Code-specific Prompt Compression for Retrieval-Augmented Generation in Coding Tasks with LMs [6.936336826531964]
Retrieval-Augmented Generation (RAG)は、検索したコード例をプロンプトに組み込むことで、コーディングタスクを強化する。既存の即時圧縮技術は自然言語に重点を置いており、コードの適切なソリューションが欠如している。 RAGに組み込む前にコード例を圧縮するフレームワークであるCodePromptZipを提案する。
論文参考訳（メタデータ） (2025-02-19T23:15:23Z)
Efficient and Effective Prompt Tuning via Prompt Decomposition and Compressed Outer Product [8.014705094248589]
低パラメータプロンプトチューニング法は、PT法とLoRA法で性能と効率を向上する。 6つのアーキテクチャと8つのデータセットにわたる実験により、LAMPはパフォーマンスと効率において、最先端のPTベースのメソッドとLoRAベースのメソッドより優れていることが示された。
論文参考訳（メタデータ） (2025-02-16T05:50:12Z)
ICPC: In-context Prompt Compression with Faster Inference [0.0]
I CPC(In-context Prompt Compression)は,新規かつスケーラブルなプロンプト圧縮手法であり,プロンプト長を適応的に削減する。 I CPCの鍵となる考え方は、エンコーダを用いてプロンプトに現れる各単語の確率を計算し、情報関数を介して各単語が持つ情報を計算することである。実験により、I CPCは、異なるカテゴリの長いテキストを効果的に圧縮し、異なるタイプのNLPタスクにおいてより優れた性能と速度を実現することができることを示した。
論文参考訳（メタデータ） (2025-01-03T03:46:51Z)
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
モデル圧縮問題をカスタマイズした補償問題に再構成する。トレーニング不要な固有空間低ランク近似(EoRA)を提案する。 EoRAは、勾配ベースのトレーニングを必要とせずに、圧縮誘起エラーを直接最小化する。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。 MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文参考訳（メタデータ） (2024-10-28T06:14:12Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
TACO-RL: Task Aware Prompt Compression Optimization with Reinforcement Learning [11.167198972934736]
GPT-4のような大規模言語モデル(LLM)は、最適なパフォーマンスに必要なプロンプトのサイズが急増した。本稿では,RLに基づくタスク認識プロンプト圧縮手法を提案する。我々は,RL誘導圧縮法により,最先端圧縮技術よりもタスク性能が8%から260%向上することが実証された。
論文参考訳（メタデータ） (2024-09-19T18:11:59Z)
Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文参考訳（メタデータ） (2024-08-16T12:20:56Z)
Efficient Encoder-Decoder Transformer Decoding for Decomposable Tasks [53.550782959908524]
エンコーダ・デコーダモデルのための新しい構成を導入し、構造化された出力と分解可能なタスクの効率を改善する。提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文参考訳（メタデータ） (2024-03-19T19:27:23Z)
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:56Z)
Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference [1.9639467358416092]
トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。本稿では,動的メモリ圧縮(DMC)を提案する。 Llama 2 (7B, 13B, 70B) などの事前学習 LLM を DMC トランスフォーマーに適合させ,NVIDIA H100 GPU 上での自己回帰推論で最大 7 倍のスループット向上を実現した。
論文参考訳（メタデータ） (2024-03-14T17:59:26Z)
Discrete Prompt Compression with Reinforcement Learning [2.664293070994717]
Compressed prompts aid instruction-tuned language model (LM) inovercoming context window limit and reduce computational cost。既存のメソッドは、主にトレーニングの埋め込みに基づいているが、解釈可能性、埋め込みトークンの固定数、異なるLM間の再利用性、ブラックボックスAPIとのインタラクションにおける適用性など、さまざまな課題に直面している。本研究では,これらの問題に対処する離散的プロンプト圧縮法であるPCRLを用いた即時圧縮を提案する。
論文参考訳（メタデータ） (2023-08-17T03:10:17Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)
PERFECT: Prompt-free and Efficient Few-shot Learning with Language Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文参考訳（メタデータ） (2022-04-03T22:31:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。