論文の概要: PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models
- arxiv url: http://arxiv.org/abs/2406.07801v1
- Date: Wed, 12 Jun 2024 01:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 20:46:21.665748
- Title: PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models
- Title(参考訳): PolySpeech:シングルタスクモデルとの競合性のための統一マルチタスク音声モデル探索
- Authors: Runyan Yang, Huibao Yang, Xiqing Zhang, Tiantian Ye, Ying Liu, Yingying Gao, Shilei Zhang, Chao Deng, Junlan Feng,
- Abstract要約: 音声認識,音声合成,および2つの音声分類タスクをサポートするマルチタスク音声モデルであるPolySpeechを提案する。
PolySpeechは、シングルタスクモデルと比較して、さまざまなタスク間の競争力を示している。
- 参考スコア(独自算出の注目度): 19.719401865551745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, there have been attempts to integrate various speech processing tasks into a unified model. However, few previous works directly demonstrated that joint optimization of diverse tasks in multitask speech models has positive influence on the performance of individual tasks. In this paper we present a multitask speech model -- PolySpeech, which supports speech recognition, speech synthesis, and two speech classification tasks. PolySpeech takes multi-modal language model as its core structure and uses semantic representations as speech inputs. We introduce semantic speech embedding tokenization and speech reconstruction methods to PolySpeech, enabling efficient generation of high-quality speech for any given speaker. PolySpeech shows competitiveness across various tasks compared to single-task models. In our experiments, multitask optimization achieves performance comparable to single-task optimization and is especially beneficial for specific tasks.
- Abstract(参考訳): 近年,様々な音声処理タスクを統一モデルに統合する試みが試みられている。
しかし、マルチタスク音声モデルにおける多様なタスクの協調最適化が個々のタスクのパフォーマンスに肯定的な影響を与えることを直接的に証明する以前の研究はほとんどない。
本稿では,音声認識,音声合成,および2つの音声分類タスクをサポートするマルチタスク音声モデルであるPolySpeechを提案する。
PolySpeechはマルチモーダル言語モデルをその中核構造とし、音声入力として意味表現を使用する。
本稿では,PolySpeechにセマンティックな音声埋め込みトークン化と音声再構成手法を導入し,任意の話者に対して高品質な音声を効率よく生成する。
PolySpeechは、シングルタスクモデルと比較して、さまざまなタスク間の競争力を示している。
我々の実験では、マルチタスク最適化はシングルタスクの最適化に匹敵する性能を達成し、特定のタスクに特に有益である。
関連論文リスト
- An Adapter-Based Unified Model for Multiple Spoken Language Processing Tasks [3.015760169663536]
複数の音声言語処理タスクを処理可能な統一モデルの開発において,アダプタベースの微調整の可能性を検討する。
アダプタをベースとしたファインチューニングにより、単一エンコーダデコーダモデルにより、平均18.4%の精度で複数の音声処理タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-06-20T21:39:04Z) - SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。
学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。
実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文 参考訳(メタデータ) (2024-05-14T03:33:31Z) - SpeechComposer: Unifying Multiple Speech Tasks with Prompt Composition [67.08798754009153]
言語モデルは通常、タスク依存のプロンプトトークンを使用して、様々な音声タスクを単一のモデルに統合する。
本稿では,一組のプロンプトトークンを構成することで共通の音声タスクを統一できる,デコーダのみの音声言語モデルであるSpeechComposerを提案する。
論文 参考訳(メタデータ) (2024-01-31T18:06:29Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - SpeechPrompt v2: Prompt Tuning for Speech Classification Tasks [94.30385972442387]
本稿では,多種多様な音声分類タスクを実行できるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。
実験の結果、SpeechPrompt v2は0.15M未満のトレーニング可能なパラメータを持つ以前の作業と同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-01T18:47:41Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Re-framing Incremental Deep Language Models for Dialogue Processing with
Multi-task Learning [14.239355474794142]
本稿では,1つのインクリメンタル対話処理モデルのトレーニングを可能にするマルチタスク学習フレームワークを提案する。
これらのタスクは、タスクからのノイズの重大度に依存する各タスクの最適貢献により、互いに正の帰納バイアスを与えることを示す。
論文 参考訳(メタデータ) (2020-11-13T04:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。