論文の概要: Cellular Network Speech Enhancement: Removing Background and
Transmission Noise
- arxiv url: http://arxiv.org/abs/2301.09027v1
- Date: Sun, 22 Jan 2023 00:18:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:13:49.483987
- Title: Cellular Network Speech Enhancement: Removing Background and
Transmission Noise
- Title(参考訳): セルラーネットワーク音声強調:背景と伝送雑音の除去
- Authors: Amanda Shu, Hamza Khalid, Haohui Liu, Shikhar Agnihotri, Joseph Konan,
Ojas Bhargave
- Abstract要約: 本稿では, 産業性能に勝って1.92 PESQ と 0.88 STOI を達成する方法と, 優れた音響忠実度, 知覚品質, インテリジェンス性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary objective of speech enhancement is to reduce background noise
while preserving the target's speech. A common dilemma occurs when a speaker is
confined to a noisy environment and receives a call with high background and
transmission noise. To address this problem, the Deep Noise Suppression (DNS)
Challenge focuses on removing the background noise with the next-generation
deep learning models to enhance the target's speech; however, researchers fail
to consider Voice Over IP (VoIP) applications their transmission noise.
Focusing on Google Meet and its cellular application, our work achieves
state-of-the-art performance on the Google Meet To Phone Track of the VoIP DNS
Challenge. This paper demonstrates how to beat industrial performance and
achieve 1.92 PESQ and 0.88 STOI, as well as superior acoustic fidelity,
perceptual quality, and intelligibility in various metrics.
- Abstract(参考訳): 音声強調の主な目的は、ターゲットの音声を維持しながら背景雑音を低減することである。
共通のジレンマは、話者が雑音の多い環境に閉じ込められ、高いバックグラウンドと送信ノイズの呼び出しを受けるときに発生する。
この問題に対処するため、deep noise reduction(dns)チャレンジでは、ターゲットの音声を強化するために、次世代のディープラーニングモデルによるバックグラウンドノイズの除去に重点を置いているが、voip(voice over ip)の応用は検討されていない。
Google Meetとそのセルラーアプリケーションに焦点を当てて、VoIP DNS ChallengeのGoogle Meet To Phone Trackにおける最先端のパフォーマンスを実現しました。
本稿では, 産業性能に勝って1.92 PESQ と 0.88 STOI を達成する方法と, 音響的忠実度, 知覚的品質, インテリジェンス性について述べる。
関連論文リスト
- Speech Boosting: Low-Latency Live Speech Enhancement for TWS Earbuds [7.360661203298394]
本稿では,デバイス上での真の無線ステレオ(TWS)イヤホンに適した音声強調ソリューションを提案する。
このソリューションは、ノイズキャンセリング(ANC)を有効にして、ノイズの多い環境での会話をサポートするように設計されている。
論文 参考訳(メタデータ) (2024-09-27T12:47:36Z) - TRNet: Two-level Refinement Network leveraging Speech Enhancement for Noise Robust Speech Emotion Recognition [29.756961194844717]
提案したTRNetは,一致した雑音環境と一致しない雑音環境の両方において,提案方式の堅牢性を大幅に向上させる。
その結果,提案方式は,一致した環境と一致しない環境の両方において,提案方式のロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-19T16:09:17Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Speech Enhancement for Virtual Meetings on Cellular Networks [1.487576938041254]
本研究では,携帯端末上での仮想会議における深層学習(DL)を用いた音声強調について検討した。
T-Mobileネットワーク上でZoom Meetingsを用いて送信されたDNS(t-DNS)データセットを収集する。
本研究の目的は、深層学習モデルを用いて、携帯電話ネットワーク上で伝達される音声を強化することである。
論文 参考訳(メタデータ) (2023-02-02T04:35:48Z) - Universal Speech Enhancement with Score-based Diffusion [21.294665965300922]
本稿では,55種類の歪みに同時に対処するユニバーサル音声強調システムを提案する。
提案手法は,スコアベース拡散を用いた生成モデルとマルチレゾリューション・コンディショニング・ネットワークから構成される。
提案手法は,専門家が実施した主観的テストにおいて,技量を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-06-07T07:32:32Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Interactive Feature Fusion for End-to-End Noise-Robust Speech
Recognition [25.84784710031567]
本稿では,ノイズロバスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案する。
実験の結果,提案手法は最良基準値に対して絶対単語誤り率(WER)を4.1%削減できることがわかった。
さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能において欠落した情報を補うことができることがわかった。
論文 参考訳(メタデータ) (2021-10-11T13:40:07Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。