論文の概要: Improving Perceptual Quality, Intelligibility, and Acoustics on VoIP
Platforms
- arxiv url: http://arxiv.org/abs/2303.09048v1
- Date: Thu, 16 Mar 2023 02:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:04:37.916229
- Title: Improving Perceptual Quality, Intelligibility, and Acoustics on VoIP
Platforms
- Title(参考訳): VoIPプラットフォームにおける知覚品質, 知性, 音響特性の改善
- Authors: Joseph Konan, Ojas Bhargave, Shikhar Agnihotri, Hojeong Lee, Ankit
Shah, Shuo Han, Yunyang Zeng, Amanda Shu, Haohui Liu, Xuankai Chang, Hamza
Khalid, Minseon Gwak, Kawon Lee, Minjeong Kim, Bhiksha Raj
- Abstract要約: 本稿では,Deep Noise Suppression (DNS) 2020 Challengeでトレーニングされた微調整モデルを用いて,VoIP(VoIP)アプリケーション上での性能を向上させる手法を提案する。
我々のアプローチは、VoIP通信の特定の音響特性にDNS 2020モデルを適用することである。
- 参考スコア(独自算出の注目度): 20.75189453886614
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we present a method for fine-tuning models trained on the Deep
Noise Suppression (DNS) 2020 Challenge to improve their performance on Voice
over Internet Protocol (VoIP) applications. Our approach involves adapting the
DNS 2020 models to the specific acoustic characteristics of VoIP
communications, which includes distortion and artifacts caused by compression,
transmission, and platform-specific processing. To this end, we propose a
multi-task learning framework for VoIP-DNS that jointly optimizes noise
suppression and VoIP-specific acoustics for speech enhancement. We evaluate our
approach on a diverse VoIP scenarios and show that it outperforms both industry
performance and state-of-the-art methods for speech enhancement on VoIP
applications. Our results demonstrate the potential of models trained on
DNS-2020 to be improved and tailored to different VoIP platforms using
VoIP-DNS, whose findings have important applications in areas such as speech
recognition, voice assistants, and telecommunication.
- Abstract(参考訳): 本稿では,Deep Noise Suppression (DNS) 2020 Challengeでトレーニングされた微調整モデルを用いて,VoIP(VoIP)アプリケーション上での性能を向上させる手法を提案する。
我々のアプローチでは、dns 2020モデルをvoip通信の特定の音響特性に適用し、圧縮、伝送、プラットフォーム固有の処理によって引き起こされる歪みやアーティファクトを含む。
そこで本稿では,音声強調のためのノイズ抑圧とVoIP固有の音響を協調的に最適化する,VoIP-DNSのためのマルチタスク学習フレームワークを提案する。
我々は,様々なVoIPシナリオに対するアプローチを評価し,VoIPアプリケーション上での音声強調のための産業性能と最先端手法の両方に優れることを示す。
本研究は,音声認識,音声アシスタント,遠隔通信などの分野で重要な応用例であるVoIP-DNSを用いて,異なるVoIPプラットフォームに対して,DNS-2020でトレーニングしたモデルを改良・調整する可能性を示すものである。
関連論文リスト
- VHASR: A Multimodal Speech Recognition System With Vision Hotwords [74.94430247036945]
VHASRは、視覚をホットワードとして使用し、モデルの音声認識能力を強化するマルチモーダル音声認識システムである。
VHASRは、画像のキー情報を効果的に利用して、モデルの音声認識能力を高めることができる。
論文 参考訳(メタデータ) (2024-10-01T16:06:02Z) - Speech Boosting: Low-Latency Live Speech Enhancement for TWS Earbuds [7.360661203298394]
本稿では,デバイス上での真の無線ステレオ(TWS)イヤホンに適した音声強調ソリューションを提案する。
このソリューションは、ノイズキャンセリング(ANC)を有効にして、ノイズの多い環境での会話をサポートするように設計されている。
論文 参考訳(メタデータ) (2024-09-27T12:47:36Z) - Psychoacoustic Challenges Of Speech Enhancement On VoIP Platforms [19.122454483635615]
この研究は、Deep Noise Suppression (DNS) 2020データセットに基づいており、様々なデノナイジング設定やレシーバインターフェースに合わせて、構造化された検査を確実にする。
Blinder-Oaxaca分解(Blinder-Oaxaca decomposition)は、従来のエコノメトリーツールであり、VoIPシステム内の音響・音響的摂動を解析するための手法である。
主な発見に加えて、さまざまな指標が報告され、研究のパースペクションが拡張された。
論文 参考訳(メタデータ) (2023-10-11T03:19:22Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Cellular Network Speech Enhancement: Removing Background and
Transmission Noise [0.0]
本稿では, 産業性能に勝って1.92 PESQ と 0.88 STOI を達成する方法と, 優れた音響忠実度, 知覚品質, インテリジェンス性を示す。
論文 参考訳(メタデータ) (2023-01-22T00:18:10Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Attention based end to end Speech Recognition for Voice Search in Hindi
and English [0.0]
本稿では,eコマースプラットフォームにおける音声検索機能の文脈における音声認識(ASR)の取り組みについて述べる。
我々は、革新的なアプローチを取り入れるために、モデル設計とアテンションメカニズムを構築し、拡張する。
本稿では, 最新のLASモデル上でのWERの相対的な改善を15.7%で報告する。
論文 参考訳(メタデータ) (2021-11-15T18:08:32Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Exploring Wav2vec 2.0 fine-tuning for improved speech emotion
recognition [78.92428622630861]
wav2vec 2.0は、音声感情認識(SER)に使用できる
バニラ微調整(V-FT)とタスク適応事前訓練(TAPT)の2つの基本手法を最初に提示する。
V-FTがIEMOCAPデータセットの最先端モデルより優れていることを示す。
P-TAPTと呼ばれる新しい微調整手法も導入し、TAPTの目的を変更して文脈化された感情表現を学習する。
論文 参考訳(メタデータ) (2021-10-12T19:55:55Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。