論文の概要: SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks
- arxiv url: http://arxiv.org/abs/2303.00733v1
- Date: Wed, 1 Mar 2023 18:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-02 13:33:59.582221
- Title: SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks
- Title(参考訳): speechprompt v2: 音声分類タスクのためのプロンプトチューニング
- Authors: Kai-Wei Chang, Yu-Kai Wang, Hua Shen, Iu-thing Kang, Wei-Cheng Tseng,
Shang-Wen Li, Hung-yi Lee
- Abstract要約: 本稿では,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果、SpeechPrompt v2は0.15M未満のトレーニング可能なパラメータを持つ以前の作業と同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 94.30385972442387
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt tuning is a technology that tunes a small set of parameters to steer a
pre-trained language model (LM) to directly generate the output for downstream
tasks. Recently, prompt tuning has demonstrated its storage and computation
efficiency in both natural language processing (NLP) and speech processing
fields. These advantages have also revealed prompt tuning as a candidate
approach to serving pre-trained LM for multiple tasks in a unified manner. For
speech processing, SpeechPrompt shows its high parameter efficiency and
competitive performance on a few speech classification tasks. However, whether
SpeechPrompt is capable of serving a large number of tasks is unanswered. In
this work, we propose SpeechPrompt v2, a prompt tuning framework capable of
performing a wide variety of speech classification tasks, covering multiple
languages and prosody-related tasks. The experiment result shows that
SpeechPrompt v2 achieves performance on par with prior works with less than
0.15M trainable parameters in a unified framework.
- Abstract(参考訳): プロンプトチューニングは、小さなパラメータセットをチューニングして、学習済み言語モデル(lm)を操り、下流タスクの出力を直接生成する技術である。
近年,自然言語処理(NLP)と音声処理の両方において,その記憶効率と計算効率が実証されている。
これらの利点は、複数のタスクに対して事前訓練されたLMを統一的に提供するための候補として、即時チューニングも明らかにしている。
音声処理において, speechpromptはいくつかの音声分類タスクにおいて高いパラメータ効率と競合性を示す。
しかし、SpeechPromptが多数のタスクを処理できるかどうかは未解決である。
本研究では,複数の言語と韻律関連タスクをカバーする,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果,speechprompt v2は0.15m未満の学習可能なパラメータを持つ先行処理と同等の性能を実現していることがわかった。
関連論文リスト
- SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models [19.719401865551745]
音声認識,音声合成,および2つの音声分類タスクをサポートするマルチタスク音声モデルであるPolySpeechを提案する。
PolySpeechは、シングルタスクモデルと比較して、さまざまなタスク間の競争力を示している。
論文 参考訳(メタデータ) (2024-06-12T01:35:46Z) - SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。