論文の概要: An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks
- arxiv url: http://arxiv.org/abs/2203.16773v1
- Date: Thu, 31 Mar 2022 03:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 06:31:47.808275
- Title: An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks
- Title(参考訳): 音声処理タスクのための生成音声言語モデルに基づくプロンプトチューニングの探索
- Authors: Kai-Wei Chang, Wei-Cheng Tseng, Shang-Wen Li, Hung-yi Lee
- Abstract要約: 生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 112.1942546460814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech representations learned from Self-supervised learning (SSL) models
have been found beneficial for various speech processing tasks. However,
utilizing SSL representations usually requires fine-tuning the pre-trained
models or designing task-specific downstream models and loss functions, causing
much memory usage and human labor. On the other hand, prompting in Natural
Language Processing (NLP) is an efficient and widely used technique to leverage
pre-trained language models (LMs). Nevertheless, such a paradigm is little
studied in the speech community. We report in this paper the first exploration
of the prompt tuning paradigm for speech processing tasks based on Generative
Spoken Language Model (GSLM). Experiment results show that the prompt tuning
technique achieves competitive performance in speech classification tasks with
fewer trainable parameters than fine-tuning specialized downstream models. We
further study the technique in challenging sequence generation tasks. Prompt
tuning also demonstrates its potential, while the limitation and possible
research directions are discussed in this paper.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルから学習した音声表現は、様々な音声処理タスクに有用であることが判明した。
しかし、SSL表現を利用するには、トレーニング済みのモデルを微調整するか、タスク固有のダウンストリームモデルと損失関数を設計する必要がある。
一方、自然言語処理(NLP)のプロンプトは、事前訓練された言語モデル(LM)を活用するための効率的で広く使われている手法である。
しかし、このようなパラダイムは言語コミュニティではほとんど研究されていない。
本稿では,生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの探索について報告する。
実験の結果, 学習可能なパラメータの少ない音声分類タスクにおいて, 微調整されたダウンストリームモデルに比べて, 適応性が向上した。
さらに,課題系列生成タスクにおける手法について検討する。
プロンプトチューニングもその可能性を示し,本論文ではその限界と可能性について論じる。
関連論文リスト
- On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - Fine-tuning Pre-trained Language Models with Noise Stability
Regularization [111.3117112585139]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Making Pre-trained Language Models End-to-end Few-shot Learners with
Contrastive Prompt Tuning [41.15017636192417]
CP-Tuning(CP-Tuning)は、言語モデルのための最初のエンドツーエンドのPrompt Tuningフレームワークである。
完全にトレーニング可能なプロンプトパラメータを持つタスク不変の連続プロンプトエンコーディング技術と統合されている。
IRシステムや異なるPLMで使用される様々な言語理解タスクの実験は、CP-Tuningが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-04-01T02:24:24Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speech Representation Learning Through Self-supervised Pretraining And
Multi-task Finetuning [63.38155671200249]
MTLファインタニングはSSLプリトレーニングをさらに改善できることを示す。
教師付きMLLファインタニングの一般化性を分析し,MTLファインタニングで学習した音声表現が新たなタスクに一般化できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-10-18T07:16:04Z) - Differentiable Prompt Makes Pre-trained Language Models Better Few-shot
Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。
小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。
標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T12:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。