論文の概要: Incremental Machine Speech Chain Towards Enabling Listening while
Speaking in Real-time
- arxiv url: http://arxiv.org/abs/2011.02126v1
- Date: Wed, 4 Nov 2020 04:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 22:49:58.001579
- Title: Incremental Machine Speech Chain Towards Enabling Listening while
Speaking in Real-time
- Title(参考訳): インクリメンタル・マシン・スピーチ・チェーンによるリアルタイム音声聴取の実現
- Authors: Sashi Novitasari, Andros Tjandra, Tomoya Yanagita, Sakriani Sakti,
Satoshi Nakamura
- Abstract要約: リアルタイムに音声を聴きながら音声を聴くことができるための,インクリメンタルな機械音声連鎖を提案する。
具体的には,2つのシステムを短時間のループで連携させることで,ISRとITTSを漸進的に構築する。
実験結果から,提案フレームワークは,非インクリメンタルな基本音声連鎖に匹敵する性能を維持しつつ,長時間の発声による遅延を低減できることがわかった。
- 参考スコア(独自算出の注目度): 25.086566607354364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by a human speech chain mechanism, a machine speech chain framework
based on deep learning was recently proposed for the semi-supervised
development of automatic speech recognition (ASR) and text-to-speech synthesis
TTS) systems. However, the mechanism to listen while speaking can be done only
after receiving entire input sequences. Thus, there is a significant delay when
encountering long utterances. By contrast, humans can listen to what hey speak
in real-time, and if there is a delay in hearing, they won't be able to
continue speaking. In this work, we propose an incremental machine speech chain
towards enabling machine to listen while speaking in real-time. Specifically,
we construct incremental ASR (ISR) and incremental TTS (ITTS) by letting both
systems improve together through a short-term loop. Our experimental results
reveal that our proposed framework is able to reduce delays due to long
utterances while keeping a comparable performance to the non-incremental basic
machine speech chain.
- Abstract(参考訳): 自動音声認識(asr)と音声合成tts(text-to-speech synthesis tts)の半教師あり開発のために,人間の発話連鎖機構に触発されて,ディープラーニングに基づく機械音声連鎖フレームワークが最近提案されている。
しかし、話しながら聴くメカニズムは、入力シーケンス全体を受信した後にのみ行うことができる。
したがって、長い発話に遭遇するとかなりの遅延が生じる。
対照的に、人間はリアルタイムで話すことを聴くことができ、もし聴覚が遅れたとしても、話し続けることはできない。
本研究では,機械がリアルタイムに話しながら聴くことを可能にするために,インクリメンタル・マシン・スピーチ・チェーンを提案する。
具体的には,短期ループによる両システムの改善により,インクリメンタルasr (isr) とインクリメンタルtts (itts) を構築した。
実験結果から,提案手法は,非インクリメンタルな基本音声連鎖に匹敵する性能を維持しつつ,長時間発話による遅延を低減できることがわかった。
関連論文リスト
- IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文 参考訳(メタデータ) (2024-09-25T20:59:12Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - A Non-autoregressive Generation Framework for End-to-End Simultaneous Speech-to-Speech Translation [48.84039953531355]
同時音声翻訳のための新しい非自己回帰生成フレームワーク(NAST-S2X)を提案する。
NAST-S2Xは、音声テキストと音声音声タスクを統合エンドツーエンドフレームワークに統合する。
3秒未満の遅延で高品質な同時解釈を実現し、オフライン生成において28倍のデコードスピードアップを提供する。
論文 参考訳(メタデータ) (2024-06-11T04:25:48Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention [0.0]
本稿では,数秒間の参照音声からターゲット音声を再生可能な,注意に基づく音声合成システムを提案する。
長期発話への一般化は、ダイナミック・コンボリューション・アテンション(Dynamic Convolution Attention)と呼ばれるエネルギーベースのアテンション機構を用いて実現される。
音声の自然性、話者の類似性、アライメントの整合性、長い発話を合成する能力などの観点から、音声クローニングシステムの実装を比較した。
論文 参考訳(メタデータ) (2022-01-25T15:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。