論文の概要: VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition
- arxiv url: http://arxiv.org/abs/2009.04323v1
- Date: Wed, 9 Sep 2020 14:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 09:12:08.346957
- Title: VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition
- Title(参考訳): VoiceFilter-Lite:オンデバイス音声認識のためのストリーミングターゲット音声分離
- Authors: Quan Wang, Ignacio Lopez Moreno, Mert Saglam, Kevin Wilson, Alan
Chiao, Renjie Liu, Yanzhang He, Wei Li, Jason Pelecanos, Marily Nika,
Alexander Gruenstein
- Abstract要約: ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
- 参考スコア(独自算出の注目度): 60.462770498366524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce VoiceFilter-Lite, a single-channel source separation model that
runs on the device to preserve only the speech signals from a target user, as
part of a streaming speech recognition system. Delivering such a model presents
numerous challenges: It should improve the performance when the input signal
consists of overlapped speech, and must not hurt the speech recognition
performance under all other acoustic conditions. Besides, this model must be
tiny, fast, and perform inference in a streaming fashion, in order to have
minimal impact on CPU, memory, battery and latency. We propose novel techniques
to meet these multi-faceted requirements, including using a new asymmetric
loss, and adopting adaptive runtime suppression strength. We also show that
such a model can be quantized as a 8-bit integer model and run in realtime.
- Abstract(参考訳): 本稿では,対象ユーザからの音声信号のみをストリーミング音声認識システムの一部として保存する単一チャネルソース分離モデルであるVoiceFilter-Liteを紹介する。
このようなモデルを提供することは、入力信号が重複した音声からなる場合の性能を向上させること、他の全ての音響条件下で音声認識性能を損なうべきではないこと、多くの課題を呈する。
さらに、このモデルは、CPU、メモリ、バッテリ、レイテンシに最小限の影響を与えるために、小さな、高速で、ストリーミング形式で推論を実行する必要がある。
本稿では,新しい非対称損失の利用,適応型ランタイム抑制強度の導入など,多面的要求を満たす新しい手法を提案する。
また,そのようなモデルが8ビット整数モデルとして量子化され,リアルタイムに動作することを示す。
関連論文リスト
- Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - StreamVC: Real-Time Low-Latency Voice Conversion [20.164321451712564]
StreamVCはストリーミング音声変換ソリューションで、任意のソース音声の内容と韻律を保存し、任意のターゲット音声から音声の音色をマッチングする。
StreamVCは、モバイルプラットフォーム上でも入力信号から低レイテンシで結果の波形を生成する。
論文 参考訳(メタデータ) (2024-01-05T22:37:26Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - EfficientSpeech: An On-Device Text to Speech Model [15.118059441365343]
State of the Art (SOTA) Neural Text to Speech (TTS)モデルでは、自然な音声合成音声を生成することができる。
本研究では,ARM CPU上で音声をリアルタイムに合成するEfficientSpeechという,効率的なニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T10:28:41Z) - Guided Speech Enhancement Network [17.27704800294671]
マルチマイクロホン音声強調問題は、空間フィルタリングを提供するビームフォーマと単一チャンネル音声強調モデルという2つの分離されたステップに分解されることが多い。
MLモデルの入力として生マイクとビームフォーマの出力を併用した音声強調ソリューションを提案する。
我々は、MLモジュールをGSENetと命名し、ガイド付き音声強調ネットワークの略とした。
論文 参考訳(メタデータ) (2023-03-13T21:48:20Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Transformer Transducer: One Model Unifying Streaming and Non-streaming
Speech Recognition [16.082949461807335]
本稿では,Transformer-Transducerモデルアーキテクチャと,ストリーミングおよび非ストリーミング音声認識モデルを1つのモデルに統合するためのトレーニング手法を提案する。
私たちは、このモデルを低レイテンシと高レイテンシモードで、上位層を並列に実行するYモデルアーキテクチャで実行できることを示します。
これにより、レイテンシが制限されたストリーミング音声認識結果と、精度を大幅に向上した遅延音声認識結果が得られる。
論文 参考訳(メタデータ) (2020-10-07T05:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。