論文の概要: SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition
- arxiv url: http://arxiv.org/abs/2401.18045v1
- Date: Wed, 31 Jan 2024 18:06:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:43:39.132220
- Title: SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition
- Title(参考訳): SpeechComposer: プロンプト構成による複数音声タスクの統合
- Authors: Yihan Wu, Soumi Maiti, Yifan Peng, Wangyou Zhang, Chenda Li, Yuyue
Wang, Xihua Wang, Shinji Watanabe, Ruihua Song
- Abstract要約: 言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
- 参考スコア(独自算出の注目度): 67.08798754009153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in language models have significantly enhanced
performance in multiple speech-related tasks. Existing speech language models
typically utilize task-dependent prompt tokens to unify various speech tasks in
a single model. However, this design omits the intrinsic connections between
different speech tasks, which can potentially boost the performance of each
task. In this work, we propose a novel decoder-only speech language model,
SpeechComposer, that can unify common speech tasks by composing a fixed set of
prompt tokens. Built upon four primary tasks -- speech synthesis, speech
recognition, speech language modeling, and text language modeling --
SpeechComposer can easily extend to more speech tasks via compositions of
well-designed prompt tokens, like voice conversion and speech enhancement. The
unification of prompt tokens also makes it possible for knowledge sharing among
different speech tasks in a more structured manner. Experimental results
demonstrate that our proposed SpeechComposer can improve the performance of
both primary tasks and composite tasks, showing the effectiveness of the shared
prompt tokens. Remarkably, the unified decoder-only model achieves a comparable
and even better performance than the baselines which are expert models designed
for single tasks.
- Abstract(参考訳): 最近の言語モデルの進歩は、複数の音声関連タスクのパフォーマンスを大幅に向上させた。
既存の音声言語モデルは、タスク依存のプロンプトトークンを使用して、単一のモデルで様々な音声タスクを統一する。
しかし、この設計では、異なる音声タスク間の内在的な接続が省略され、各タスクのパフォーマンスが向上する可能性がある。
本研究では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,新しいデコーダのみの音声言語モデルであるSpeechComposerを提案する。
音声合成、音声認識、音声言語モデリング、テキスト言語モデリングの4つの主要なタスク -speechcomposerは、音声変換や音声強調など、よく設計されたプロンプトトークンの構成を通じて、より多くの音声タスクに容易に拡張できる。
プロンプトトークンの統合により、異なる音声タスク間の知識共有をより構造化された方法で実現する。
実験結果から,提案手法は主タスクと複合タスクの両方の性能を向上し,共有したプロンプトトークンの有効性を示す。
驚くべきことに、統一デコーダのみのモデルは、単一のタスク用に設計されたエキスパートモデルであるベースラインと同等で、さらに優れたパフォーマンスを達成している。
関連論文リスト
- Speaker Mask Transformer for Multi-talker Overlapped Speech Recognition [27.35304346509647]
話者ラベルを自己回帰変換器に基づく音声認識モデルに導入する。
次に、個々の話者の音声セグメントを検出するための新しい話者マスク分岐を提案する。
提案モデルでは,音声認識と話者ダイアリゼーションの両方を同時に行うことができる。
論文 参考訳(メタデータ) (2023-12-18T06:29:53Z) - Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [59.54465462717297]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks [94.30385972442387]
本稿では,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果、SpeechPrompt v2は0.15M未満のトレーニング可能なパラメータを持つ以前の作業と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-01T18:47:41Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。