論文の概要: HiFi-Stream: Streaming Speech Enhancement with Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2503.17141v1
- Date: Fri, 21 Mar 2025 13:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:21.624306
- Title: HiFi-Stream: Streaming Speech Enhancement with Generative Adversarial Networks
- Title(参考訳): HiFi-Stream: 生成逆ネットワークを用いたストリーム音声強調
- Authors: Ekaterina Dmitrieva, Maksim Kaledin,
- Abstract要約: 最近公開されたHiFi++モデルの最適化版であるHiFi-Streamを紹介する。
実験によると、HiFiStreamはそのサイズと計算の複雑さにもかかわらず、オリジナルのモデルの品質の大部分を節約している。
- 参考スコア(独自算出の注目度): 0.07673339435080445
- License:
- Abstract: Speech Enhancement techniques have become core technologies in mobile devices and voice software simplifying downstream speech tasks. Still, modern Deep Learning (DL) solutions often require high amount of computational resources what makes their usage on low-resource devices challenging. We present HiFi-Stream, an optimized version of recently published HiFi++ model. Our experiments demonstrate that HiFiStream saves most of the qualities of the original model despite its size and computational complexity: the lightest version has only around 490k parameters which is 3.5x reduction in comparison to the original HiFi++ making it one of the smallest and fastest models available. The model is evaluated in streaming setting where it demonstrates its superior performance in comparison to modern baselines.
- Abstract(参考訳): 音声強調技術はモバイル機器の中核技術となり、音声ソフトウェアは下流の音声タスクを簡素化している。
それでも、現代のディープラーニング(DL)ソリューションは、低リソースデバイスでの使用を困難にしている大量の計算リソースを必要とすることが多い。
最近公開されたHiFi++モデルの最適化版であるHiFi-Streamを紹介する。
最も軽量なバージョンは490kのパラメータしか持たず、オリジナルのHiFi++と比較して3.5倍の削減率で、最も小さく、最も高速なモデルのひとつです。
このモデルは、現在のベースラインと比較して優れた性能を示すストリーミング環境で評価される。
関連論文リスト
- FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。
本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。
我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文 参考訳(メタデータ) (2024-10-08T11:16:03Z) - Real-time Speech Enhancement on Raw Signals with Deep State-space Modeling [1.0650780147044159]
ATENNuateは、オンライン生音声の効率向上のために構成された、シンプルなディープな状態空間オートエンコーダである。
我々は、VoiceBank + DEMANDとMicrosoft DNS1合成テストセットでaTENNuateをベンチマークする。
ネットワークは、PSSQスコア、パラメータカウント、MAC、レイテンシの点で、従来のリアルタイムデノナイズモデルを上回っている。
論文 参考訳(メタデータ) (2024-09-05T09:28:56Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - High-Fidelity Audio Compression with Improved RVQGAN [49.7859037103693]
44.1KHzの音声をたった8kbpsの帯域でトークンに90倍圧縮する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを提案する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
論文 参考訳(メタデータ) (2023-06-11T00:13:00Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - On Comparison of Encoders for Attention based End to End Speech
Recognition in Standalone and Rescoring Mode [1.7704011486040847]
非ストリーミングモデルは、オーディオコンテキスト全体を見ると、より良いパフォーマンスを提供する。
我々はTransformerモデルが最低レイテンシ要件で許容できるWERを提供することを示す。
We highlight the importance of CNN front-end with Transformer architecture to achieve comparable word error rate (WER)。
論文 参考訳(メタデータ) (2022-06-26T09:12:27Z) - HiFi++: a Unified Framework for Bandwidth Extension and Speech
Enhancement [3.6731536660959985]
帯域拡張と音声強調のための新しいHiFi++フレームワークを提案する。
改良されたジェネレータアーキテクチャにより、HiFi++は、これらのタスクにおける最先端技術と、より良く、または互換性を持って機能することを示す。
論文 参考訳(メタデータ) (2022-03-24T14:25:51Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - Improving Streaming Automatic Speech Recognition With Non-Streaming
Model Distillation On Unsupervised Data [44.48235209327319]
ストリーミングのエンドツーエンド自動音声認識モデルは、スマートスピーカーやデバイス上のアプリケーションで広く利用されている。
教師として非ストリーミング型ASRモデルを活用することによって,新しい効果的な学習手法を提案する。
ストリーミングモデルのトレーニングを、最大300万時間のYouTubeオーディオに拡大しています。
論文 参考訳(メタデータ) (2020-10-22T22:41:33Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。