論文の概要: Incremental Machine Speech Chain Towards Enabling Listening while
Speaking in Real-time
- arxiv url: http://arxiv.org/abs/2011.02126v1
- Date: Wed, 4 Nov 2020 04:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:49:58.001579
- Title: Incremental Machine Speech Chain Towards Enabling Listening while
Speaking in Real-time
- Title(参考訳): インクリメンタル・マシン・スピーチ・チェーンによるリアルタイム音声聴取の実現
- Authors: Sashi Novitasari, Andros Tjandra, Tomoya Yanagita, Sakriani Sakti,
Satoshi Nakamura
- Abstract要約: リアルタイムに音声を聴きながら音声を聴くことができるための,インクリメンタルな機械音声連鎖を提案する。
具体的には,2つのシステムを短時間のループで連携させることで,ISRとITTSを漸進的に構築する。
実験結果から,提案フレームワークは,非インクリメンタルな基本音声連鎖に匹敵する性能を維持しつつ,長時間の発声による遅延を低減できることがわかった。
- 参考スコア(独自算出の注目度): 25.086566607354364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by a human speech chain mechanism, a machine speech chain framework
based on deep learning was recently proposed for the semi-supervised
development of automatic speech recognition (ASR) and text-to-speech synthesis
TTS) systems. However, the mechanism to listen while speaking can be done only
after receiving entire input sequences. Thus, there is a significant delay when
encountering long utterances. By contrast, humans can listen to what hey speak
in real-time, and if there is a delay in hearing, they won't be able to
continue speaking. In this work, we propose an incremental machine speech chain
towards enabling machine to listen while speaking in real-time. Specifically,
we construct incremental ASR (ISR) and incremental TTS (ITTS) by letting both
systems improve together through a short-term loop. Our experimental results
reveal that our proposed framework is able to reduce delays due to long
utterances while keeping a comparable performance to the non-incremental basic
machine speech chain.
- Abstract(参考訳): 自動音声認識(asr)と音声合成tts(text-to-speech synthesis tts)の半教師あり開発のために,人間の発話連鎖機構に触発されて,ディープラーニングに基づく機械音声連鎖フレームワークが最近提案されている。
しかし、話しながら聴くメカニズムは、入力シーケンス全体を受信した後にのみ行うことができる。
したがって、長い発話に遭遇するとかなりの遅延が生じる。
対照的に、人間はリアルタイムで話すことを聴くことができ、もし聴覚が遅れたとしても、話し続けることはできない。
本研究では,機械がリアルタイムに話しながら聴くことを可能にするために,インクリメンタル・マシン・スピーチ・チェーンを提案する。
具体的には,短期ループによる両システムの改善により,インクリメンタルasr (isr) とインクリメンタルtts (itts) を構築した。
実験結果から,提案手法は,非インクリメンタルな基本音声連鎖に匹敵する性能を維持しつつ,長時間発話による遅延を低減できることがわかった。
関連論文リスト
- Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文 参考訳(メタデータ) (2022-01-25T15:06:07Z) - On-device neural speech synthesis [3.716815259884143]
TacotronとWaveRNNは、完全なニューラルネットワークベースのTSシステムの構築を可能にした。
我々は、これらのモデルをGPUサーバやモバイルデバイスにデプロイするための重要なモデリング改善と最適化戦略を示す。
提案システムは,サーバ上のリアルタイムよりも5倍,モバイルデバイス上では3倍の速さで,高品質な24kHz音声を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T18:31:31Z) - Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based
on Transfer Learning [0.802904964931021]
提案手法は,マルチスピーカ音響空間をモデル化可能なシステムを実現するために,これらの制約を克服することを目的としている。
これにより、訓練期間中に観測されていなくても、異なる話者の声に似た音声を生成することができる。
論文 参考訳(メタデータ) (2021-02-10T18:43:56Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。