論文の概要: Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability
- arxiv url: http://arxiv.org/abs/2410.11786v2
- Date: Mon, 21 Oct 2024 13:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:22:27.430683
- Title: Selection-p: Self-Supervised Task-Agnostic Prompt Compression for Faithfulness and Transferability
- Title(参考訳): 選択-p:自己監督型タスク非依存型プロンプト圧縮の忠実度と伝達性
- Authors: Tsz Ting Chung, Leyang Cui, Lemao Liu, Xinting Huang, Shuming Shi, Dit-Yan Yeung,
- Abstract要約: 本稿では,非形式的トークンを識別する統一圧縮法を開発するために,大規模言語モデルの能力について検討する。
実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成することが示された。
以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
- 参考スコア(独自算出の注目度): 67.77534983324229
- License:
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities in a wide range of natural language processing tasks when leveraging in-context learning. To mitigate the additional computational and financial costs associated with in-context learning, several prompt compression methods have been proposed to compress the in-context learning prompts. Despite their success, these methods face challenges with transferability due to model-specific compression, or rely on external training data, such as GPT-4. In this paper, we investigate the ability of LLMs to develop a unified compression method that discretizes uninformative tokens, utilizing a self-supervised pre-training technique. By introducing a small number of parameters during the continual pre-training, the proposed Selection-p produces a probability for each input token, indicating whether to preserve or discard it. Experiments show Selection-p achieves state-of-the-art performance across numerous classification tasks, achieving compression rates of up to 10 times while experiencing only a marginal 0.8% decrease in performance. Moreover, it exhibits superior transferability to different models compared to prior work. Additionally, we further analyze how Selection-p helps maintain performance on in-context learning with long contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンテキスト内学習を利用する際に、幅広い自然言語処理タスクにおいて印象的な機能を示す。
テキスト内学習に伴う計算コストと金銭コストの増大を緩和するため、テキスト内学習のプロンプトを圧縮するためにいくつかのプロンプト圧縮法が提案されている。
その成功にもかかわらず、これらの手法はモデル固有の圧縮やGPT-4のような外部のトレーニングデータに依存するため、転送可能性に関する課題に直面している。
本稿では,自己教師付き事前学習技術を用いて,不定形トークンを識別する統一圧縮手法の開発について検討する。
継続事前学習中に少数のパラメータを導入することで、提案した選択-pは各入力トークンに対して確率を生成し、保存または破棄するかどうかを示す。
実験により、Selection-pは様々な分類タスクで最先端のパフォーマンスを達成し、圧縮率を最大10倍にし、性能の限界0.8%しか低下しないことが示された。
さらに、以前の作業と比べて、異なるモデルに対して優れた転送性を示す。
さらに,Selection-pがコンテキスト内学習のパフォーマンス維持にどのように役立つかを,長いコンテキストで分析する。
関連論文リスト
- Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T05:22:33Z) - Complementary Learning Subnetworks for Parameter-Efficient
Class-Incremental Learning [40.13416912075668]
本稿では,2つの補完学習サブネットワークス間のシナジーを通じて連続的に学習するリハーサルフリーなCILアプローチを提案する。
提案手法は, 精度向上, メモリコスト, トレーニング効率, タスク順序など, 最先端手法と競合する結果が得られる。
論文 参考訳(メタデータ) (2023-06-21T01:43:25Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Prompt Consistency for Zero-Shot Task Generalization [118.81196556175797]
本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法について検討する。
具体的には,複数のプロンプトを使ってひとつのタスクを指定できることを利用して,プロンプトの一貫性を規則化する手法を提案する。
我々のアプローチは、4つのNLPタスクにまたがる11のデータセットのうち9つにおいて、最先端のゼロショット学習者であるT0を精度で最大10.6の絶対点で上回ります。
論文 参考訳(メタデータ) (2022-04-29T19:18:37Z) - Analyzing Student Strategies In Blended Courses Using Clickstream Data [32.81171098036632]
パターンマイニングと、自然言語処理から借用したモデルを用いて、学生のインタラクションを理解します。
きめ細かいクリックストリームデータは、非商業的な教育支援システムであるDiderotを通じて収集される。
提案手法は,混合コースの低データ設定においても有意な洞察を得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-31T03:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。