論文の概要: SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition
- arxiv url: http://arxiv.org/abs/2401.18045v1
- Date: Wed, 31 Jan 2024 18:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:43:39.132220
- Title: SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition
- Title(参考訳): SpeechComposer: プロンプト構成による複数音声タスクの統合
- Authors: Yihan Wu, Soumi Maiti, Yifan Peng, Wangyou Zhang, Chenda Li, Yuyue
Wang, Xihua Wang, Shinji Watanabe, Ruihua Song
- Abstract要約: 言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
- 参考スコア(独自算出の注目度): 67.08798754009153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in language models have significantly enhanced
performance in multiple speech-related tasks. Existing speech language models
typically utilize task-dependent prompt tokens to unify various speech tasks in
a single model. However, this design omits the intrinsic connections between
different speech tasks, which can potentially boost the performance of each
task. In this work, we propose a novel decoder-only speech language model,
SpeechComposer, that can unify common speech tasks by composing a fixed set of
prompt tokens. Built upon four primary tasks -- speech synthesis, speech
recognition, speech language modeling, and text language modeling --
SpeechComposer can easily extend to more speech tasks via compositions of
well-designed prompt tokens, like voice conversion and speech enhancement. The
unification of prompt tokens also makes it possible for knowledge sharing among
different speech tasks in a more structured manner. Experimental results
demonstrate that our proposed SpeechComposer can improve the performance of
both primary tasks and composite tasks, showing the effectiveness of the shared
prompt tokens. Remarkably, the unified decoder-only model achieves a comparable
and even better performance than the baselines which are expert models designed
for single tasks.
- Abstract(参考訳): 最近の言語モデルの進歩は、複数の音声関連タスクのパフォーマンスを大幅に向上させた。
既存の音声言語モデルは、タスク依存のプロンプトトークンを使用して、単一のモデルで様々な音声タスクを統一する。
しかし、この設計では、異なる音声タスク間の内在的な接続が省略され、各タスクのパフォーマンスが向上する可能性がある。
本研究では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,新しいデコーダのみの音声言語モデルであるSpeechComposerを提案する。
音声合成、音声認識、音声言語モデリング、テキスト言語モデリングの4つの主要なタスク -speechcomposerは、音声変換や音声強調など、よく設計されたプロンプトトークンの構成を通じて、より多くの音声タスクに容易に拡張できる。
プロンプトトークンの統合により、異なる音声タスク間の知識共有をより構造化された方法で実現する。
実験結果から,提案手法は主タスクと複合タスクの両方の性能を向上し,共有したプロンプトトークンの有効性を示す。
驚くべきことに、統一デコーダのみのモデルは、単一のタスク用に設計されたエキスパートモデルであるベースラインと同等で、さらに優れたパフォーマンスを達成している。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models [19.719401865551745]
音声認識,音声合成,および2つの音声分類タスクをサポートするマルチタスク音声モデルであるPolySpeechを提案する。
PolySpeechは、シングルタスクモデルと比較して、さまざまなタスク間の競争力を示している。
論文 参考訳(メタデータ) (2024-06-12T01:35:46Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。