論文の概要: TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition
- arxiv url: http://arxiv.org/abs/2308.10415v1
- Date: Mon, 21 Aug 2023 01:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 15:28:10.227393
- Title: TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition
- Title(参考訳): TokenSplit: 直接, 精製, トランスクリプトによる音声分離・認識のための離散音声表現
- Authors: Hakan Erdogan, Scott Wisdom, Xuankai Chang, Zal\'an Borsos, Marco
Tagliasacchi, Neil Zeghidour, John R. Hershey
- Abstract要約: TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
- 参考スコア(独自算出の注目度): 51.565319173790314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TokenSplit, a speech separation model that acts on discrete token
sequences. The model is trained on multiple tasks simultaneously: separate and
transcribe each speech source, and generate speech from text. The model
operates on transcripts and audio token sequences and achieves multiple tasks
through masking of inputs. The model is a sequence-to-sequence encoder-decoder
model that uses the Transformer architecture. We also present a "refinement"
version of the model that predicts enhanced audio tokens from the audio tokens
of speech separated by a conventional separation model. Using both objective
metrics and subjective MUSHRA listening tests, we show that our model achieves
excellent performance in terms of separation, both with or without transcript
conditioning. We also measure the automatic speech recognition (ASR)
performance and provide audio samples of speech synthesis to demonstrate the
additional utility of our model.
- Abstract(参考訳): 本研究では,離散トークン列に作用する音声分離モデルであるtokensplitを提案する。
モデルは複数のタスクで同時にトレーニングされ、各音声ソースを分離して書き起こし、テキストから音声を生成する。
このモデルは書き起こしとオーディオトークンシーケンスで動作し、入力をマスキングすることで複数のタスクを達成する。
このモデルはTransformerアーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,従来の分離モデルにより分離された音声の音声トークンから,拡張された音声トークンを予測するモデルの改良版も提示する。
客観的指標と主観的mushraリスニングテストの両方を用いて,本モデルが書き起こし条件付けの有無に関わらず,分離の観点から優れた性能が得られることを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成のサンプルを提供し、我々のモデルの有用性を実証する。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - SelfVC: Voice Conversion With Iterative Refinement using Self Transformations [42.97689861071184]
SelfVCは、自己合成例で音声変換モデルを改善するためのトレーニング戦略である。
本研究では,音声信号とSSL表現から韻律情報を導出する手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
論文 参考訳(メタデータ) (2023-10-14T19:51:17Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。