論文の概要: An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks
- arxiv url: http://arxiv.org/abs/2203.16773v1
- Date: Thu, 31 Mar 2022 03:26:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 06:31:47.808275
- Title: An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks
- Title(参考訳): 音声処理タスクのための生成音声言語モデルに基づくプロンプトチューニングの探索
- Authors: Kai-Wei Chang, Wei-Cheng Tseng, Shang-Wen Li, Hung-yi Lee
- Abstract要約: 生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 112.1942546460814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech representations learned from Self-supervised learning (SSL) models
have been found beneficial for various speech processing tasks. However,
utilizing SSL representations usually requires fine-tuning the pre-trained
models or designing task-specific downstream models and loss functions, causing
much memory usage and human labor. On the other hand, prompting in Natural
Language Processing (NLP) is an efficient and widely used technique to leverage
pre-trained language models (LMs). Nevertheless, such a paradigm is little
studied in the speech community. We report in this paper the first exploration
of the prompt tuning paradigm for speech processing tasks based on Generative
Spoken Language Model (GSLM). Experiment results show that the prompt tuning
technique achieves competitive performance in speech classification tasks with
fewer trainable parameters than fine-tuning specialized downstream models. We
further study the technique in challenging sequence generation tasks. Prompt
tuning also demonstrates its potential, while the limitation and possible
research directions are discussed in this paper.
- Abstract(参考訳): 自己教師付き学習(SSL)モデルから学習した音声表現は、様々な音声処理タスクに有用であることが判明した。
しかし、SSL表現を利用するには、トレーニング済みのモデルを微調整するか、タスク固有のダウンストリームモデルと損失関数を設計する必要がある。
一方、自然言語処理(NLP)のプロンプトは、事前訓練された言語モデル(LM)を活用するための効率的で広く使われている手法である。
しかし、このようなパラダイムは言語コミュニティではほとんど研究されていない。
本稿では,生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの探索について報告する。
実験の結果, 学習可能なパラメータの少ない音声分類タスクにおいて, 微調整されたダウンストリームモデルに比べて, 適応性が向上した。
さらに,課題系列生成タスクにおける手法について検討する。
プロンプトチューニングもその可能性を示し,本論文ではその限界と可能性について論じる。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。
本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文 参考訳(メタデータ) (2024-09-05T16:57:39Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - On Conditional and Compositional Language Model Differentiable Prompting [75.76546041094436]
プロンプトは、下流タスクでうまく機能するために、凍結した事前訓練言語モデル(PLM)を適応するための効果的な方法であることが示されている。
タスク命令や入力メタデータを連続的なプロンプトに変換することを学習する新しいモデル Prompt Production System (PRopS) を提案する。
論文 参考訳(メタデータ) (2023-07-04T02:47:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Speech Representation Learning Through Self-supervised Pretraining And
Multi-task Finetuning [63.38155671200249]
MTLファインタニングはSSLプリトレーニングをさらに改善できることを示す。
教師付きMLLファインタニングの一般化性を分析し,MTLファインタニングで学習した音声表現が新たなタスクに一般化できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-10-18T07:16:04Z) - Differentiable Prompt Makes Pre-trained Language Models Better Few-shot
Learners [23.150999852147283]
本研究は,differiAble pRompT (DART) という新規で効率的なアプローチを提案する。
小さな言語モデルを、素早いエンジニアリングなしで、より優れた数ショットの学習者に変換することができる。
標準NLPタスクの包括的な評価は、提案手法がより優れた数ショット性能を実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T12:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。