論文の概要: Learning to Compress Prompts with Gist Tokens
- arxiv url: http://arxiv.org/abs/2304.08467v3
- Date: Mon, 12 Feb 2024 19:03:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 20:07:06.074056
- Title: Learning to Compress Prompts with Gist Tokens
- Title(参考訳): gistトークンでプロンプトを圧縮する学習
- Authors: Jesse Mu, Xiang Lisa Li, Noah Goodman
- Abstract要約: 我々は、LMにプロンプトを小さな"gist"トークンセットに圧縮するよう訓練するgistingを提案する。
decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの最大26倍の圧縮を可能にする。
- 参考スコア(独自算出の注目度): 16.64173373856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompting is the primary way to utilize the multitask capabilities of
language models (LMs), but prompts occupy valuable space in the input context
window, and repeatedly encoding the same prompt is computationally inefficient.
Finetuning and distillation methods allow for specialization of LMs without
prompting, but require retraining the model for each task. To avoid this
trade-off entirely, we present gisting, which trains an LM to compress prompts
into smaller sets of "gist" tokens which can be cached and reused for compute
efficiency. Gist models can be trained with no additional cost over standard
instruction finetuning by simply modifying Transformer attention masks to
encourage prompt compression. On decoder (LLaMA-7B) and encoder-decoder
(FLAN-T5-XXL) LMs, gisting enables up to 26x compression of prompts, resulting
in up to 40% FLOPs reductions, 4.2% wall time speedups, and storage savings,
all with minimal loss in output quality.
- Abstract(参考訳): プロンプトは言語モデル(lms)のマルチタスク機能を利用する主要な方法であるが、プロンプトは入力コンテキストウィンドウの貴重なスペースを占め、同じプロンプトを繰り返しエンコーディングすることは計算量的に非効率である。
微粒化および蒸留法は、LMをプロンプトせずに特殊化することができるが、各タスクのモデルを再訓練する必要がある。
このトレードオフを完全に回避するために、我々はLMにプロンプトを圧縮するよう訓練するgistingを、キャッシュし、計算効率を高めるために再利用できる"gist"トークンの小さなセットに提示する。
gistモデルは、プロンプト圧縮を促進するために変圧器アテンションマスクを単純に変更することで、標準命令の微調整よりも追加コストなしでトレーニングすることができる。
decoder (LLaMA-7B) と encoder-decoder (FLAN-T5-XXL) のLMでは、gisting はプロンプトの最大26倍の圧縮が可能で、最大40%のFLOPs削減、4.2%のウォールタイムスピードアップ、ストレージセーブが可能で、出力品質の損失は最小限である。
関連論文リスト
- Encode Once and Decode in Parallel: Efficient Transformer Decoding [53.550782959908524]
本稿では,エンコーダ・デコーダモデルのための新しい構成を導入し,構造化された出力と質問応答タスクの効率を改善する。
提案手法は,インプットを一度エンコードして並列にデコードすることで,トレーニングと推論の効率を向上する。
論文 参考訳(メタデータ) (2024-03-19T19:27:23Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - Learning to Compress Prompt in Natural Language Formats [54.06967020905763]
大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れている。
LLMは、長いコンテキスト、遅い推論速度、高い計算コストによる性能の低下によって制約される。
本研究の目的は、LLM転送性を備えた自然言語形式で長いプロンプトを圧縮することである。
論文 参考訳(メタデータ) (2024-02-28T20:41:21Z) - LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-16T09:18:46Z) - Discrete Prompt Compression with Reinforcement Learning [3.1475093202269235]
Compressed prompts aid instruction-tuned language model (LM) inovercoming context window limit and reduce computational cost。
既存のメソッドは、主にトレーニングの埋め込みに基づいているが、解釈可能性、埋め込みトークンの固定数、異なるLM間の再利用性、ブラックボックスAPIとのインタラクションにおける適用性など、さまざまな課題に直面している。
本研究では,これらの問題に対処する離散的プロンプト圧縮法であるPCRLを用いた即時圧縮を提案する。
論文 参考訳(メタデータ) (2023-08-17T03:10:17Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Semantic Compression With Large Language Models [1.0874100424278175]
大規模言語モデル(LLM)は、情報検索、質問応答、要約、コード生成タスクに革命をもたらしている。
LLMは本質的に、一度に処理できる入力トークンと出力トークンの数によって制限される。
本稿では,LLMの研究への3つの貢献について述べる。
論文 参考訳(メタデータ) (2023-04-25T01:47:05Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - TR-BERT: Dynamic Token Reduction for Accelerating BERT Inference [54.791572981834435]
既存の訓練済み言語モデル(PLM)は推論において計算コストがかかることが多い。
TR-BERT と呼ばれる PLM の推論を高速化する動的トークン削減手法を提案する。
TR-BERTは、トークン削減プロセスを多段階のトークン選択問題として定式化し、強化学習を通じて選択戦略を自動的に学習する。
論文 参考訳(メタデータ) (2021-05-25T02:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。