論文の概要: Discrete Prompt Compression with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.08758v1
- Date: Thu, 17 Aug 2023 03:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 18:04:52.782271
- Title: Discrete Prompt Compression with Reinforcement Learning
- Title(参考訳): 強化学習による離散プロンプト圧縮
- Authors: Hoyoun Jung and Kyung-Joong Kim
- Abstract要約: コンテキストウィンドウの長さと計算コストに関連する制約により、圧縮プロンプトの開発が促進される。
既存の方法は、複数のトークンの意味に対応するように設計された、トレーニングの埋め込みに大きく依存している。
本研究では,新しい離散的即時圧縮法であるPCRLを用いた即時圧縮を提案する。
- 参考スコア(独自算出の注目度): 3.1475093202269235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Instruction-tuned Language Models (LMs) are widely used by users to address
various problems with task-specific prompts. Constraints associated with the
context window length and computational costs encourage the development of
compressed prompts. Existing methods rely heavily on training embeddings, which
are designed to accommodate multiple token meanings. This presents challenges
in terms of interpretability, a fixed number of embedding tokens, reusability
across different LMs, and inapplicability when interacting with black-box APIs.
This study proposes prompt compression with reinforcement learning (PCRL), a
novel discrete prompt compression method that addresses these issues. PCRL
employs a computationally efficient policy network that directly edits prompts.
The PCRL training approach can be flexibly applied to various types of LMs, as
well as decoder-only and encoder-decoder architecture, and can be trained
without gradient access to LMs or labeled data. PCRL achieves an average
reduction of 24.6% in token count across various instruction prompts while
preserving performance. Further, we demonstrate that the learned policy can be
transferred to larger LMs, and through various analyses, we aid the
understanding of token importance within prompts.
- Abstract(参考訳): インストラクションチューニング言語モデル(LM)は、タスク固有のプロンプトで様々な問題に対処するために広く利用されている。
コンテキストウィンドウの長さと計算コストに関連する制約は、圧縮プロンプトの開発を促進する。
既存のメソッドは、複数のトークンの意味に対応するように設計された組込みのトレーニングに大きく依存している。
これにより、解釈可能性、固定数の埋め込みトークン、異なるLM間での再利用性、ブラックボックスAPIとのインタラクションにおける適用性といった面での課題が提示される。
本研究は,これらの問題に対処する新しい離散的プロンプト圧縮法であるpcrlを用いたプロンプト圧縮を提案する。
PCRLはプロンプトを直接編集する計算効率の良いポリシーネットワークを採用している。
PCRLトレーニングアプローチは、様々な種類のLMやデコーダオンリーおよびエンコーダ-デコーダアーキテクチャに柔軟に適用することができ、LMやラベル付きデータへの勾配アクセスなしにトレーニングすることができる。
PCRLは、パフォーマンスを維持しながら、様々な命令プロンプトで平均24.6%のトークン数を減少させる。
さらに,学習方針をより大きなLMに伝達できることを実証し,様々な分析を通じて,プロンプト内のトークンの重要性の理解を支援する。
関連論文リスト
- Prompt Customization for Continual Learning [57.017987355717935]
本稿では,継続的学習のためのプロンプト的アプローチを再構築し,プロンプト的カスタマイズ(PC)手法を提案する。
PCは主にプロンプト生成モジュール(PGM)とプロンプト変調モジュール(PMM)で構成される。
提案手法は,クラス,ドメイン,タスクに依存しないインクリメンタル学習タスクを含む3つの異なる設定に対して,4つのベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2024-04-28T03:28:27Z) - Don't Half-listen: Capturing Key-part Information in Continual Instruction Tuning [13.535110749767451]
キーパート情報ゲイン(KPIG)に基づく新しい連続的命令チューニング手法を提案する。
本手法は,マスク部分の情報ゲインを計算し,データを動的に再生し,トレーニング対象を洗練させる。
実験により,本手法は観察タスクと保留タスクの両方において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-15T06:54:20Z) - Learning impartial policies for sequential counterfactual explanations
using Deep Reinforcement Learning [0.0]
近年,SCFの発見政策を学習し,拡張性を高めるための強化学習法が提案されている。
本研究では,特定の行動に対する偏見など,望ましくない特性を持つポリシーを生じるような既存手法の欠点を同定する。
この効果を緩和するために,分類器の出力確率を用いてより情報的な報酬を生成することを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:50:47Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。
LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。
LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文 参考訳(メタデータ) (2023-10-02T17:42:37Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Making Pre-trained Language Models End-to-end Few-shot Learners with
Contrastive Prompt Tuning [41.15017636192417]
CP-Tuning(CP-Tuning)は、言語モデルのための最初のエンドツーエンドのPrompt Tuningフレームワークである。
完全にトレーニング可能なプロンプトパラメータを持つタスク不変の連続プロンプトエンコーディング技術と統合されている。
IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-04-01T02:24:24Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。