論文の概要: Textual Echo Cancellation
- arxiv url: http://arxiv.org/abs/2008.06006v4
- Date: Fri, 17 Sep 2021 01:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:55:29.983265
- Title: Textual Echo Cancellation
- Title(参考訳): 音声エコーキャンセリング
- Authors: Shaojin Ding, Ye Jia, Ke Hu, Quan Wang
- Abstract要約: 重なり合う音声録音からTTS再生エコーをキャンセルするフレームワークであるTextual Echo Cancellation (TEC)を提案する。
マイクロホン混在信号とTTS再生のソーステキストの両方を入力として取り込むマルチソースアテンションを持つ新しいシーケンス・ツー・シーケンスモデルを用いて,本システムを実装した。
- 参考スコア(独自算出の注目度): 18.039838804462352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose Textual Echo Cancellation (TEC) - a framework for
cancelling the text-to-speech (TTS) playback echo from overlapping speech
recordings. Such a system can largely improve speech recognition performance
and user experience for intelligent devices such as smart speakers, as the user
can talk to the device while the device is still playing the TTS signal
responding to the previous query. We implement this system by using a novel
sequence-to-sequence model with multi-source attention that takes both the
microphone mixture signal and source text of the TTS playback as inputs, and
predicts the enhanced audio. Experiments show that the textual information of
the TTS playback is critical to enhancement performance. Besides, the text
sequence is much smaller in size compared with the raw acoustic signal of the
TTS playback, and can be immediately transmitted to the device or ASR server
even before the playback is synthesized. Therefore, our proposed approach
effectively reduces Internet communication and latency compared with
alternative approaches such as acoustic echo cancellation (AEC).
- Abstract(参考訳): 本稿では,tts(text-to-speech)再生エコーを重複音声からキャンセリングするためのフレームワークであるtextual echo cancel (tec)を提案する。
このようなシステムは、ユーザーが前のクエリに応答したtts信号を再生している間にデバイスと対話できるため、スマートスピーカーなどのインテリジェントデバイスにおける音声認識性能とユーザエクスペリエンスを大幅に向上させることができる。
本システムでは,ttsのマイクロホン混合信号と音源テキストの両方を入力とするマルチソース対応の新たなシーケンス・ツー・シーケンスモデルを用いて,拡張音声の予測を行う。
実験により,TTS再生のテキスト情報は性能向上に重要であることが示された。
また、テキストシーケンスは、tts再生の生の音響信号よりもはるかに小さく、再生が合成される前であっても、デバイスまたはasrサーバに即座に送信することができる。
そこで,提案手法は,音響エコーキャンセリング (AEC) などの代替手法と比較して,インターネット通信と遅延を効果的に低減する。
関連論文リスト
- Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - UTTS: Unsupervised TTS with Conditional Disentangled Sequential
Variational Auto-encoder [30.376259456529368]
TTS音響モデリング(AM)のためのテキストオーディオペアを必要としない、教師なし音声合成(UTTS)フレームワークを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - VCVTS: Multi-speaker Video-to-Speech synthesis via cross-modal knowledge
transfer from voice conversion [77.50171525265056]
本稿では,音声変換(VC)からのクロスモーダルな知識伝達に基づく,VTS(Multi-Speaker Video-to-Speech)システムを提案する。
Lip2Indネットワークは、VCのコンテンツエンコーダを交換してマルチスピーカVTSシステムを形成し、サイレントビデオを音響ユニットに変換して正確な音声コンテンツを再構成する。
論文 参考訳(メタデータ) (2022-02-18T08:58:45Z) - Voice Filter: Few-shot text-to-speech speaker adaptation using voice
conversion as a post-processing module [16.369219400819134]
最先端の音声合成システム(TTS)は、高品質な合成音声を生成するために、数時間の音声データを記録する必要がある。
トレーニングデータの量を減らす場合、標準のTSモデルは音声品質と知性劣化に悩まされる。
本稿では,ターゲット話者からの音声を1分以内で処理するVoice Filterという,非常に低リソースなTTS手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T16:12:21Z) - Incremental Speech Synthesis For Speech-To-Speech Translation [23.951060578077445]
本稿では,TSモデルの逐次合成性能の向上に焦点をあてる。
プレフィックスに基づく単純なデータ拡張戦略により、インクリメンタルTS品質を改善してオフラインパフォーマンスにアプローチすることが可能になります。
本稿では,S2STアプリケーションに適したレイテンシメトリクスを提案し,このコンテキストにおける遅延低減手法について検討する。
論文 参考訳(メタデータ) (2021-10-15T17:20:28Z) - Advances in Speech Vocoding for Text-to-Speech with Continuous
Parameters [2.6572330982240935]
本稿では,連続的なボコーダにおいて,全ての特徴が連続的であり,フレキシブルな音声合成システムを示す新しい手法を提案する。
位相歪みに基づく新しい連続雑音マスキングを提案し,残音の知覚的影響を排除した。
双方向長短期記憶 (LSTM) とゲートリカレント単位 (GRU) について検討し, 連続パラメータのモデル化に応用した。
論文 参考訳(メタデータ) (2021-06-19T12:05:01Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - GraphSpeech: Syntax-Aware Graph Attention Network For Neural Speech
Synthesis [79.1885389845874]
Transformer-based end-to-end text-to-speech synthesis (TTS)は、このような実装の成功例の一つである。
本稿では,グラフニューラルネットワークフレームワークで定式化された新しいニューラルネットワークモデルであるGraphSpeechを提案する。
実験により、GraphSpeechは、発話のスペクトルと韻律レンダリングの点で、Transformer TTSベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2020-10-23T14:14:06Z) - NAUTILUS: a Versatile Voice Cloning System [44.700803634034486]
NAUTILUSは、任意のソーススピーカのテキスト入力または参照発話から、ターゲット音声で音声を生成することができる。
バックプロパゲーションアルゴリズムに基づいて、ターゲット話者の未転写音声を用いて、未知の声をクローンすることができる。
最新技術であるTSやVCシステムと同等のクオリティを達成し、翻訳されていない音声を5分でクローンする。
論文 参考訳(メタデータ) (2020-05-22T05:00:20Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。