論文の概要: Learning to Compress Prompt in Natural Language Formats
- arxiv url: http://arxiv.org/abs/2402.18700v2
- Date: Tue, 2 Apr 2024 02:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 08:29:27.822862
- Title: Learning to Compress Prompt in Natural Language Formats
- Title(参考訳): 自然言語フォーマットでプロンプトを圧縮する学習
- Authors: Yu-Neng Chuang, Tianwei Xing, Chia-Yuan Chang, Zirui Liu, Xun Chen, Xia Hu,
- Abstract要約: 大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れている。
LLMは、長いコンテキスト、遅い推論速度、高い計算コストによる性能の低下によって制約される。
本研究の目的は、LLM転送性を備えた自然言語形式で長いプロンプトを圧縮することである。
- 参考スコア(独自算出の注目度): 54.06967020905763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are great at processing multiple natural language processing tasks, but their abilities are constrained by inferior performance with long context, slow inference speed, and the high cost of computing the results. Deploying LLMs with precise and informative context helps users process large-scale datasets more effectively and cost-efficiently. Existing works rely on compressing long prompt contexts into soft prompts. However, soft prompt compression encounters limitations in transferability across different LLMs, especially API-based LLMs. To this end, this work aims to compress lengthy prompts in the form of natural language with LLM transferability. This poses two challenges: (i) Natural Language (NL) prompts are incompatible with back-propagation, and (ii) NL prompts lack flexibility in imposing length constraints. In this work, we propose a Natural Language Prompt Encapsulation (Nano-Capsulator) framework compressing original prompts into NL formatted Capsule Prompt while maintaining the prompt utility and transferability. Specifically, to tackle the first challenge, the Nano-Capsulator is optimized by a reward function that interacts with the proposed semantics preserving loss. To address the second question, the Nano-Capsulator is optimized by a reward function featuring length constraints. Experimental results demonstrate that the Capsule Prompt can reduce 81.4% of the original length, decrease inference latency up to 4.5x, and save 80.1% of budget overheads while providing transferability across diverse LLMs and different datasets.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の自然言語処理タスクを処理するのに優れていますが、その能力は、長いコンテキストでの性能が劣る、推論速度が遅い、結果の計算コストが高い、という制約があります。
正確で情報的なコンテキストでLLMをデプロイすることは、大規模データセットをより効率的に、コスト効率良く処理するのに役立つ。
既存の作品は、長いプロンプトコンテキストをソフトプロンプトに圧縮することに依存している。
しかし、ソフトプロンプト圧縮は異なるLLM、特にAPIベースのLLM間での転送可能性の制限に遭遇する。
そこで本研究は,LLM転送性を備えた自然言語形式で長大なプロンプトを圧縮することを目的としている。
これは2つの課題を提起する。
(i)自然言語(NL)プロンプトは、バックプロパゲーションと互換性がなく、
(ii)NLは長さ制約を課す際の柔軟性を欠く。
本研究では,NLフォーマットのCapsule Promptにオリジナルのプロンプトを圧縮する自然言語プロンプトカプセル化(Nano-Capsulator)フレームワークを提案する。
特に、最初の課題に取り組むために、ナノカプセルは損失を保存するセマンティクスと相互作用する報酬関数によって最適化される。
2つ目の問題に対処するため、Nano-Capsulatorは長さ制約を含む報酬関数によって最適化される。
実験結果によると、Capsule Promptはオリジナルの長さの81.4%を削減し、推論遅延を4.5倍に削減し、予算オーバーヘッドの80.1%を削減し、多様なLLMと異なるデータセット間の転送性を提供する。
関連論文リスト
- Prompt Recursive Search: A Living Framework with Adaptive Growth in LLM Auto-Prompting [22.025533583703126]
大規模言語モデル(LLM)のためのPRS(Prompt Recursive Search)フレームワークを提案する。
PRSフレームワークは、問題複雑性と調整可能な構造の評価を取り入れ、エラーの可能性の低減を確実にする。
The Chain of Thought(CoT)法と比較して, PRS法は, Llama3-7Bモデルを用いてBBHデータセットの精度を8%向上し, 22%の改善を実現した。
論文 参考訳(メタデータ) (2024-08-02T17:59:42Z) - FSM: A Finite State Machine Based Zero-Shot Prompting Paradigm for Multi-Hop Question Answering [26.398873686905063]
大きな言語モデル (LLM) とチェーン・オブ・シント (COT) のプロンプトは、単純な自然言語推論タスクにおいて印象的な能力を示している。
本稿では,複雑なタスクに対するLLMの推論能力を高めるために,FSM(Finite State Machine)というプロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T10:01:01Z) - SelfCP: Compressing Over-Limit Prompt via the Frozen Large Language Model Itself [14.545490629324295]
長いプロンプトは、大規模言語モデルを使用する場合のハードウェアコストを大幅に上回る。
本稿では,自己圧縮器(SelfCP)を用いて,許容プロンプトを未修正のまま高密度ベクトルに圧縮する手法を提案する。
SelfCPは12$times$ over-mitプロンプトを高密度トークンで置き換えることで、メモリコストの削減と推論スループットの向上を実現している。
論文 参考訳(メタデータ) (2024-05-27T11:14:55Z) - SirLLM: Streaming Infinite Retentive LLM [74.40196814292426]
大きな言語モデル(LLM)は任意の長さの入力を処理し、メモリの程度を維持する。
近年の取り組みでは、過度に長いテキスト入力の圧力を軽減するためにストリーミング入力が採用されている。
本稿では,SirLLM(Streaming Infinite Retentive LLM)を提案する。
論文 参考訳(メタデータ) (2024-05-21T06:37:03Z) - MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,知識能力を向上させる新しい手法であるMemLLMを紹介する。
実験の結果,MemLLMは言語モデリング全般,特に言語モデルにおいて,性能と解釈可能性を向上させることが示唆された。
私たちは MemLLM を,メモリ拡張による LLM の基盤化と現実化に向けた重要なステップと捉えています。
論文 参考訳(メタデータ) (2024-04-17T18:13:16Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - LaFFi: Leveraging Hybrid Natural Language Feedback for Fine-tuning
Language Models [14.087415157225715]
微調整大型言語モデル(LLM)は、特定の下流タスクに訓練されたモデルを適用する。
Supervised Fine-Tuning (SFT) は、LLMが望ましい回答を得るために訓練される一般的なアプローチである。
本稿では,LLMのための自然言語フィードバック (Natural Language Feedback for Finetuning LLMs, LaFFi) という,SFTの代替手法を提案する。
論文 参考訳(メタデータ) (2023-12-31T21:18:16Z) - LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。
この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。
本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:47:51Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。