論文の概要: Speech Enhancement for Virtual Meetings on Cellular Networks
- arxiv url: http://arxiv.org/abs/2302.00868v1
- Date: Thu, 2 Feb 2023 04:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 15:22:54.712844
- Title: Speech Enhancement for Virtual Meetings on Cellular Networks
- Title(参考訳): セルラーネットワークにおける仮想会議のための音声強調
- Authors: Hojeong Lee, Minseon Gwak, Kawon Lee, Minjeong Kim, Joseph Konan and
Ojas Bhargave
- Abstract要約: 本研究では,携帯端末上での仮想会議における深層学習(DL)を用いた音声強調について検討した。
T-Mobileネットワーク上でZoom Meetingsを用いて送信されたDNS(t-DNS)データセットを収集する。
本研究の目的は、深層学習モデルを用いて、携帯電話ネットワーク上で伝達される音声を強化することである。
- 参考スコア(独自算出の注目度): 1.487576938041254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study speech enhancement using deep learning (DL) for virtual meetings on
cellular devices, where transmitted speech has background noise and
transmission loss that affects speech quality. Since the Deep Noise Suppression
(DNS) Challenge dataset does not contain practical disturbance, we collect a
transmitted DNS (t-DNS) dataset using Zoom Meetings over T-Mobile network. We
select two baseline models: Demucs and FullSubNet. The Demucs is an end-to-end
model that takes time-domain inputs and outputs time-domain denoised speech,
and the FullSubNet takes time-frequency-domain inputs and outputs the energy
ratio of the target speech in the inputs. The goal of this project is to
enhance the speech transmitted over the cellular networks using deep learning
models.
- Abstract(参考訳): 本研究では,音声品質に影響を及ぼす背景雑音や伝達損失を有する携帯端末上での仮想会議におけるディープラーニング(DL)を用いた音声強調について検討した。
Deep Noise Suppression (DNS) Challenge データセットは実用的な障害を含まないため、T-Mobile ネットワーク上でZoom Meetings を用いて送信された DNS (t-DNS) データセットを収集する。
DemucsとFullSubNetの2つのベースラインモデルを選択します。
Demucsは時間領域の入力を受け、時間領域の認知音声を出力するエンド・ツー・エンドのモデルであり、FullSubNetは時間周波数領域の入力を受け、入力中のターゲット音声のエネルギー比を出力する。
このプロジェクトの目標は、ディープラーニングモデルを使用して、セルラーネットワーク上で送信される音声を強化することである。
関連論文リスト
- Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using
Spatial Transformer Networks [0.24466725954625895]
無声音声インタフェース(SSI)は,特定の条件下での調音運動データから知能音声を合成することができる。
結果として得られるモデルは話者固有のもので、ユーザ間の迅速な切り替えが厄介になる。
我々は、入力画像上でアフィン変換を行うことのできる空間変換器ネットワーク(STN)モジュールを用いて、ディープネットワークを拡張した。
論文 参考訳(メタデータ) (2023-05-30T15:41:47Z) - Guided Speech Enhancement Network [17.27704800294671]
マルチマイクロホン音声強調問題は、空間フィルタリングを提供するビームフォーマと単一チャンネル音声強調モデルという2つの分離されたステップに分解されることが多い。
MLモデルの入力として生マイクとビームフォーマの出力を併用した音声強調ソリューションを提案する。
我々は、MLモジュールをGSENetと命名し、ガイド付き音声強調ネットワークの略とした。
論文 参考訳(メタデータ) (2023-03-13T21:48:20Z) - Cellular Network Speech Enhancement: Removing Background and
Transmission Noise [0.0]
本稿では, 産業性能に勝って1.92 PESQ と 0.88 STOI を達成する方法と, 優れた音響忠実度, 知覚品質, インテリジェンス性を示す。
論文 参考訳(メタデータ) (2023-01-22T00:18:10Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Implicit Acoustic Echo Cancellation for Keyword Spotting and
Device-Directed Speech Detection [2.7393821783237184]
多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザ音声はデバイスがオーディオを再生するときに重複する可能性がある。
そこで我々は,ニューラルネットワークをトレーニングし,参照マイクロホンチャネルからの付加情報を利用する暗黙の音響エコーキャンセリングフレームワークを提案する。
デバイス再生条件下でDDDタスクの偽リジェクト率を56%削減することを示す。
論文 参考訳(メタデータ) (2021-11-20T17:21:16Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device
Speech Recognition [60.462770498366524]
ターゲットユーザからの音声信号のみを保存するためにデバイス上で実行される単一チャネルソース分離モデルであるVoiceFilter-Liteを導入する。
本研究では,そのようなモデルを8ビット整数モデルとして量子化し,リアルタイムに実行可能であることを示す。
論文 参考訳(メタデータ) (2020-09-09T14:26:56Z) - ConcealNet: An End-to-end Neural Network for Packet Loss Concealment in
Deep Speech Emotion Recognition [0.0]
パケット損失は、音声データ伝送を含むデータ伝送において一般的な問題である。
本稿では,重畳されたリカレント・ニューラルセルで使用可能な隠蔽ラッパーを提案する。
提案したConcealNetモデルは、音声再構成とそれに対応する感情予測の両方において、かなり改善されている。
論文 参考訳(メタデータ) (2020-05-15T20:43:02Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。