論文の概要: SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks
- arxiv url: http://arxiv.org/abs/2408.13040v1
- Date: Fri, 23 Aug 2024 13:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-26 15:00:47.033246
- Title: SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks
- Title(参考訳): SpeechPrompt: 音声処理タスクのための言語モデルの提案
- Authors: Kai-Wei Chang, Haibin Wu, Yu-Kai Wang, Yuan-Kuei Wu, Hua Shen, Wei-Cheng Tseng, Iu-thing Kang, Shang-Wen Li, Hung-yi Lee,
- Abstract要約: 我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
- 参考スコア(独自算出の注目度): 94.10497337235083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompting has become a practical method for utilizing pre-trained language models (LMs). This approach offers several advantages. It allows an LM to adapt to new tasks with minimal training and parameter updates, thus achieving efficiency in both storage and computation. Additionally, prompting modifies only the LM's inputs and harnesses the generative capabilities of language models to address various downstream tasks in a unified manner. This significantly reduces the need for human labor in designing task-specific models. These advantages become even more evident as the number of tasks served by the LM scales up. Motivated by the strengths of prompting, we are the first to explore the potential of prompting speech LMs in the domain of speech processing. Recently, there has been a growing interest in converting speech into discrete units for language modeling. Our pioneer research demonstrates that these quantized speech units are highly versatile within our unified prompting framework. Not only can they serve as class labels, but they also contain rich phonetic information that can be re-synthesized back into speech signals for speech generation tasks. Specifically, we reformulate speech processing tasks into speech-to-unit generation tasks. As a result, we can seamlessly integrate tasks such as speech classification, sequence generation, and speech generation within a single, unified prompting framework. The experiment results show that the prompting method can achieve competitive performance compared to the strong fine-tuning method based on self-supervised learning models with a similar number of trainable parameters. The prompting method also shows promising results in the few-shot setting. Moreover, with the advanced speech LMs coming into the stage, the proposed prompting framework attains great potential.
- Abstract(参考訳): プロンプティングは、事前訓練された言語モデル(LM)を利用するための実践的な方法となっている。
このアプローチにはいくつかの利点がある。
これにより、LMは最小限のトレーニングとパラメータ更新で新しいタスクに適応することができ、ストレージと計算の両方で効率が向上する。
さらに、プロンプトはLMの入力のみを変更し、言語モデルの生成能力を利用して様々な下流タスクを統一的に処理する。
これにより、タスク固有のモデルを設計する際の人的労力が大幅に削減される。
これらの利点は、LMによって提供されるタスクの数が増えるにつれてさらに顕著になる。
発声の強みに感銘を受けて,音声処理分野における音声LMの促進の可能性を探究する。
近年,言語モデリングにおいて,音声を離散単位に変換することへの関心が高まっている。
我々の先駆的な研究は、これらの量子化音声ユニットが、我々の統一的なプロンプトフレームワークの中で非常に多目的であることを示した。
クラスラベルとして機能するだけでなく、音声生成タスクのための音声信号に再合成できる豊富な音声情報も含んでいる。
具体的には,音声処理タスクを音声単位生成タスクに再構成する。
その結果、音声分類、シーケンス生成、音声生成などのタスクを単一の統一的なプロンプトフレームワークにシームレスに統合することができる。
実験結果から, 訓練可能なパラメータの数に類似した自己教師付き学習モデルに基づく, 強力な微調整法と比較して, プロンプト法は競争性能を向上できることがわかった。
プロンプト法はまた、数ショット設定で有望な結果を示す。
さらに、高度な音声LMがステージに登場し、提案するプロンプトフレームワークが大きな可能性を秘めている。
関連論文リスト
- Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - LAST: Language Model Aware Speech Tokenization [24.185165710384997]
本稿では,事前学習されたテキストLMの目的を活かして,音声トークン化者の訓練を行う新しい手法を提案する。
本研究の目的は,事前学習した音声モデルから,より優れたクラスタリングを実現するための新機能空間への変換である。
論文 参考訳(メタデータ) (2024-09-05T16:57:39Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks [94.30385972442387]
本稿では,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果、SpeechPrompt v2は0.15M未満のトレーニング可能なパラメータを持つ以前の作業と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-01T18:47:41Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。