論文の概要: SelfCP: Compressing Long Prompt to 1/12 Using the Frozen Large Language Model Itself
- arxiv url: http://arxiv.org/abs/2405.17052v1
- Date: Mon, 27 May 2024 11:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 15:52:11.678976
- Title: SelfCP: Compressing Long Prompt to 1/12 Using the Frozen Large Language Model Itself
- Title(参考訳): SelfCP: 凍結した大言語モデルを使って1/12に長いプロンプトを圧縮する
- Authors: Jun Gao,
- Abstract要約: ロングプロンプトは、Large Language Models (LLMs) を使用する場合、ハードウェアコストを大幅に削減する。
本稿では,LLM textbfitself を用いて textbfCompress long textbfPrompt 仮想トークンを提案する。
その結果、圧縮された仮想トークンは、12倍の価格のオリジナルプロンプトを効果的に置き換えることができた。
- 参考スコア(独自算出の注目度): 4.887976285514186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long prompt leads to huge hardware costs when using Large Language Models (LLMs). Unfortunately, many tasks, such as summarization, inevitably introduce long task-inputs, and the wide application of in-context learning easily makes the prompt length explode. Inspired by the language understanding ability of LLMs, this paper proposes SelfCP, which uses the LLM \textbf{itself} to \textbf{C}ompress long \textbf{P}rompt into compact virtual tokens. SelfCP applies a general frozen LLM twice, first as an encoder to compress the prompt and then as a decoder to generate responses. Specifically, given a long prompt, we place special tokens within the lengthy segment for compression and signal the LLM to generate $k$ virtual tokens. Afterward, the virtual tokens concatenate with the uncompressed prompt and are fed into the same LLM to generate the response. In general, SelfCP facilitates the unconditional and conditional compression of prompts, fitting both standard tasks and those with specific objectives. Since the encoder and decoder are frozen, SelfCP only contains 17M trainable parameters and allows for convenient adaptation across various backbones. We implement SelfCP with two LLM backbones and evaluate it in both in- and out-domain tasks. Results show that the compressed virtual tokens can substitute $12 \times$ larger original prompts effectively
- Abstract(参考訳): ロングプロンプトは、LLM(Large Language Models)を使用する場合、ハードウェアコストを大幅に削減する。
残念なことに、要約のような多くのタスクは、必然的に長いタスクインプットを導入し、文脈内学習の幅広い適用により、即時長が爆発的になる。
本稿では,LLMの言語理解能力に触発されて,LLM \textbf{itself} を用いてlong \textbf{C}ompress long \textbf{P}rompt をコンパクトな仮想トークンに変換する SelfCP を提案する。
SelfCPは、まずエンコーダとしてプロンプトを圧縮し、次にデコーダとして応答を生成する。
具体的には、長いプロンプトを前提として、圧縮のために長いセグメント内に特別なトークンを配置し、LLMに$k$仮想トークンを生成するように指示する。
その後、仮想トークンは非圧縮プロンプトと結合し、同じLSMに入力されて応答を生成する。
一般に、SelfCPはプロンプトの無条件および条件圧縮を促進し、標準タスクと特定の目的に適合する。
エンコーダとデコーダは凍結されているため、SelfCPは17Mのトレーニング可能なパラメータしか持たず、様々なバックボーンに最適な適応を可能にする。
2つのLLMバックボーンでSelfCPを実装し、ドメイン内および外部のタスクで評価する。
その結果、圧縮された仮想トークンは、12 \times$大きな元のプロンプトを効果的に置き換えることができることがわかった。
関連論文リスト
- Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。
近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。
本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文 参考訳(メタデータ) (2024-05-21T06:37:03Z) - Learning to Compress Prompt in Natural Language Formats [54.06967020905763]
大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れている。
LLMは、長いコンテキスト、遅い推論速度、高い計算コストによる性能の低下によって制約される。
本研究の目的は、LLM転送性を備えた自然言語形式で長いプロンプトを圧縮することである。
論文 参考訳(メタデータ) (2024-02-28T20:41:21Z) - MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained
Language Models [10.783764497590473]
トランスフォーマーベースの言語モデル(LM)は、大規模でハードコードされた入力ウィンドウを通してコンテキスト情報を追跡する。
メモリプロンプト(MemoryPrompt)は、LMを小さな補助的リカレントネットワークで補完し、その正規入力をベクトル列でプレフィックスすることでLMに情報伝達する手法である。
複数のファクト更新を追跡するLMの能力を調査するために設計されたタスクでテストされた MemoryPromptの拡張されたLM は、完全な入力履歴にアクセス可能なより大きなLMよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T11:30:39Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - P-Adapters: Robustly Extracting Factual Information from Language Models
with Diverse Prompts [7.657992756210283]
埋め込み層と大規模言語モデルの第一の注意層の間に位置する軽量モデルであるP-Adaptersを紹介します。
LLMの埋め込みを入力とし、LLMに問い合わせるのに使用される連続的なプロンプトを出力する。
それらは、一貫性の12~26%の絶対的な改善と、自然言語クエリのみを使用するベースラインよりも36~50%の精度の絶対的な改善を示す。
論文 参考訳(メタデータ) (2021-10-14T11:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。