論文の概要: SelfCP: Compressing Over-Limit Prompt via the Frozen Large Language Model Itself
- arxiv url: http://arxiv.org/abs/2405.17052v2
- Date: Tue, 18 Jun 2024 06:50:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 01:25:27.929247
- Title: SelfCP: Compressing Over-Limit Prompt via the Frozen Large Language Model Itself
- Title(参考訳): SelfCP: 凍結した大規模言語モデルを通じて、過限のプロンプトを圧縮する
- Authors: Jun Gao, Ziqiang Cao, Wenjie Li,
- Abstract要約: 長いプロンプトは、大規模言語モデルを使用する場合のハードウェアコストを大幅に上回る。
本稿では,自己圧縮器(SelfCP)を用いて,許容プロンプトを未修正のまま高密度ベクトルに圧縮する手法を提案する。
SelfCPは12$times$ over-mitプロンプトを高密度トークンで置き換えることで、メモリコストの削減と推論スループットの向上を実現している。
- 参考スコア(独自算出の注目度): 14.545490629324295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long prompt leads to huge hardware costs when using transformer-based Large Language Models (LLMs). Unfortunately, many tasks, such as summarization, inevitably introduce long documents, and the wide application of in-context learning easily makes the prompt length explode. This paper proposes a Self-Compressor (SelfCP), which employs the target LLM itself to compress over-limit prompts into dense vectors while keeping the allowed prompts unmodified. Dense vectors are then projected into dense tokens via a learnable connector to make the same LLM unburden to understand. The connector is supervised-tuned under the language modeling objective of the LLM on relatively long texts selected from publicly accessed datasets, involving an instruction dataset to make SelfCP respond to various prompts, while the target LLM keeps frozen during training. We build the lightweight SelfCP upon 2 different backbones with merely 17M learnable parameters originating from the connector and a learnable embedding. Evaluation on both English and Chinese benchmarks demonstrate that SelfCP effectively substitutes 12$\times$ over-limit prompts with dense tokens to reduce memory costs and booster inference throughputs, yet improving response quality. The outstanding performance brings an efficient solution for LLMs to tackle long prompts without training LLMs from scratch.
- Abstract(参考訳): ロングプロンプトは、トランスフォーマーベースのLarge Language Models (LLMs) を使用する場合、ハードウェアコストを大幅に削減する。
残念なことに、要約などの多くのタスクは必然的に長い文書を導入し、文脈内学習の幅広い適用により、即時長が爆発的になる。
本稿では,自己圧縮器(SelfCP)を提案する。これはLLM自体を目標とし,許可されたプロンプトを未修正のまま高密度ベクトルに圧縮する。
複雑なベクトルは、学習可能なコネクタを通して高密度のトークンに投影され、同じLLMが理解できないようにする。
コネクタは、一般にアクセスされたデータセットから選択された比較的長いテキストに基づいて、LLMの言語モデリングの目的の下で教師あり、SlfCPに様々なプロンプトに応答させる命令データセットを含む。
我々は2つの異なるバックボーン上に軽量なSelfCPを構築し、コネクタと学習可能な埋め込みから17Mの学習可能なパラメータを抽出する。
英語と中国語のベンチマークによる評価では、SelfCPは12$\times$ over-limitプロンプトを高密度トークンで効果的に置き換え、メモリコストを削減し、推論スループットを向上し、応答品質を改善している。
優れたパフォーマンスは、LLMをスクラッチからトレーニングすることなく、長いプロンプトに対処する効率的なソリューションを提供する。
関連論文リスト
- PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures [5.513631883813244]
既存のMLLMのモジュールを用いて,textbfPre-textbfIntegratestextbfPromptを視覚符号化プロセスに組み込むフレームワークを提案する。
我々のモデルは、視覚トークンの半分を減らしても優れた世代を維持している。
論文 参考訳(メタデータ) (2024-10-30T15:05:17Z) - PDL: A Declarative Prompt Programming Language [1.715270928578365]
本稿では,PDL(Prompt Declaration Language)を紹介する。
PDLは単純な宣言型データ指向言語であり、YAMLに基づいたプロンプトを前面に配置する。
大規模な言語モデル(LLM)やツールを呼び出すインタラクティブなアプリケーションの記述をサポートし、チャットボットやRAG、エージェントといった一般的なユースケースの実装を容易にする。
論文 参考訳(メタデータ) (2024-10-24T20:07:08Z) - Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。
本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文 参考訳(メタデータ) (2024-06-16T15:50:10Z) - SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。
近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。
本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文 参考訳(メタデータ) (2024-05-21T06:37:03Z) - Learning to Compress Prompt in Natural Language Formats [54.06967020905763]
大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れている。
LLMは、長いコンテキスト、遅い推論速度、高い計算コストによる性能の低下によって制約される。
本研究の目的は、LLM転送性を備えた自然言語形式で長いプロンプトを圧縮することである。
論文 参考訳(メタデータ) (2024-02-28T20:41:21Z) - MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained
Language Models [10.783764497590473]
トランスフォーマーベースの言語モデル(LM)は、大規模でハードコードされた入力ウィンドウを通してコンテキスト情報を追跡する。
メモリプロンプト(MemoryPrompt)は、LMを小さな補助的リカレントネットワークで補完し、その正規入力をベクトル列でプレフィックスすることでLMに情報伝達する手法である。
複数のファクト更新を追跡するLMの能力を調査するために設計されたタスクでテストされた MemoryPromptの拡張されたLM は、完全な入力履歴にアクセス可能なより大きなLMよりも優れている。
論文 参考訳(メタデータ) (2024-02-23T11:30:39Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - P-Adapters: Robustly Extracting Factual Information from Language Models
with Diverse Prompts [7.657992756210283]
埋め込み層と大規模言語モデルの第一の注意層の間に位置する軽量モデルであるP-Adaptersを紹介します。
LLMの埋め込みを入力とし、LLMに問い合わせるのに使用される連続的なプロンプトを出力する。
それらは、一貫性の12~26%の絶対的な改善と、自然言語クエリのみを使用するベースラインよりも36~50%の精度の絶対的な改善を示す。
論文 参考訳(メタデータ) (2021-10-14T11:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。