論文の概要: Scaled Prompt-Tuning for Few-Shot Natural Language Generation
- arxiv url: http://arxiv.org/abs/2309.06759v1
- Date: Wed, 13 Sep 2023 07:12:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 15:12:32.381345
- Title: Scaled Prompt-Tuning for Few-Shot Natural Language Generation
- Title(参考訳): 数ショット自然言語生成のためのスケールトプロンプトチューニング
- Authors: Ting Hu, Christoph Meinel, Haojin Yang
- Abstract要約: 大きな言語モデル(LLM)は、より強力な言語理解と生成能力を示す。
下流タスクにおける微調整LDMのメモリ需要と計算コストは無視できない。
本稿では,従来のPTよりも優れた性能と一般化能力を持つスケールド・プロンプト・チューニング(SPT)手法を提案する。
- 参考スコア(独自算出の注目度): 9.399840807973545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasingly Large Language Models (LLMs) demonstrate stronger language
understanding and generation capabilities, while the memory demand and
computation cost of fine-tuning LLMs on downstream tasks are non-negligible.
Besides, fine-tuning generally requires a certain amount of data from
individual tasks whilst data collection cost is another issue to consider in
real-world applications. In this work, we focus on Parameter-Efficient
Fine-Tuning (PEFT) methods for few-shot Natural Language Generation (NLG),
which freeze most parameters in LLMs and tune a small subset of parameters in
few-shot cases so that memory footprint, training cost, and labeling cost are
reduced while maintaining or even improving the performance. We propose a
Scaled Prompt-Tuning (SPT) method which surpasses conventional PT with better
performance and generalization ability but without an obvious increase in
training cost. Further study on intermediate SPT suggests the superior
transferability of SPT in few-shot scenarios, providing a recipe for
data-deficient and computation-limited circumstances. Moreover, a comprehensive
comparison of existing PEFT methods reveals that certain approaches exhibiting
decent performance with modest training cost such as Prefix-Tuning in prior
study could struggle in few-shot NLG tasks, especially on challenging datasets.
- Abstract(参考訳): 大規模言語モデル (LLM) はより強力な言語理解と生成能力を示し、下流タスクにおける微調整 LLM のメモリ需要と計算コストは無視できない。
さらに、細かなチューニングは一般的に個々のタスクから一定の量のデータを必要とするが、データ収集コストは現実世界のアプリケーションで考慮すべき別の問題である。
本研究では,llmsにおけるパラメータのほとんどを凍結し,少数のパラメータを少数ショットケースでチューニングし,メモリフットプリントやトレーニングコスト,ラベリングコストを削減し,パフォーマンスを維持・向上させる,nlgのためのパラメータ効率のよい微調整(peft)手法に注目する。
そこで本研究では,従来のPTよりも優れた性能と一般化能力を持つスケールド・プロンプト・チューニング(SPT)手法を提案する。
中間SPTのさらなる研究は、数ショットシナリオにおけるSPTの優れた転送可能性を示し、データ不足および計算制限状況のレシピを提供する。
さらに,既存のPEFT手法を総合的に比較した結果,事前修正・チューニングなど質素なトレーニングコストで優れたパフォーマンスを示すアプローチでは,特に挑戦的なデータセットにおいて,数ショットのNLGタスクに苦労する可能性が示唆された。
関連論文リスト
- Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models [18.877891285367216]
パラメータ効率細調整(PEFT)のクラスは、モデルのパラメータのごく一部だけを選択的に微調整することで、計算上の課題を軽減することを目的としている。
我々はパラメータの重要度を連続的に計算し,パラメータを動的にアンマスクする新しいPEFT法である$textID3$を紹介した。
解析的に、$textID3$は勾配更新数を2倍に減らし、計算効率が向上することを示した。
論文 参考訳(メタデータ) (2024-08-26T17:58:53Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Leveraging Zero-Shot Prompting for Efficient Language Model Distillation [3.4205390087622582]
本稿では, LLMをより小さく, アプリケーション固有のモデルに効率よく蒸留する方法を提案する。
LLMの推論機能を利用してラベルを生成し、ラベルのないデータに対して自然言語の合理性を生成する。
主な貢献は、教師モデルの合理性を引き出すため、ゼロショットの雇用である。
論文 参考訳(メタデータ) (2024-03-23T16:51:52Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Parameter-Efficient Fine-Tuning Methods for Pretrained Language Models:
A Critical Review and Assessment [12.674032145667763]
本稿では,事前学習言語モデル(PLM)のためのPEFT(Efficient Fine-Tuning)手法の総合的,体系的なレビューを行う。
PEFTは、完全な微調整に匹敵する性能を保ちながら、微調整パラメータとメモリ使用量を削減し、効果的なソリューションを提供する。
パラメータ効率とメモリ効率の効率性をよりよく理解するために,いくつかの代表的PEFT法を用いて実験を行った。
論文 参考訳(メタデータ) (2023-12-19T13:31:24Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。