Fugu-MT 論文翻訳(概要): Speech Enhancement for Virtual Meetings on Cellular Networks

論文の概要: Speech Enhancement for Virtual Meetings on Cellular Networks

arxiv url: http://arxiv.org/abs/2302.00868v1
Date: Thu, 2 Feb 2023 04:35:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-03 15:22:54.712844
Title: Speech Enhancement for Virtual Meetings on Cellular Networks
Title（参考訳）: セルラーネットワークにおける仮想会議のための音声強調
Authors: Hojeong Lee, Minseon Gwak, Kawon Lee, Minjeong Kim, Joseph Konan and Ojas Bhargave
Abstract要約: 本研究では,携帯端末上での仮想会議における深層学習(DL)を用いた音声強調について検討した。 T-Mobileネットワーク上でZoom Meetingsを用いて送信されたDNS(t-DNS)データセットを収集する。本研究の目的は、深層学習モデルを用いて、携帯電話ネットワーク上で伝達される音声を強化することである。
参考スコア（独自算出の注目度）: 1.487576938041254
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study speech enhancement using deep learning (DL) for virtual meetings on cellular devices, where transmitted speech has background noise and transmission loss that affects speech quality. Since the Deep Noise Suppression (DNS) Challenge dataset does not contain practical disturbance, we collect a transmitted DNS (t-DNS) dataset using Zoom Meetings over T-Mobile network. We select two baseline models: Demucs and FullSubNet. The Demucs is an end-to-end model that takes time-domain inputs and outputs time-domain denoised speech, and the FullSubNet takes time-frequency-domain inputs and outputs the energy ratio of the target speech in the inputs. The goal of this project is to enhance the speech transmitted over the cellular networks using deep learning models.
Abstract（参考訳）: 本研究では,音声品質に影響を及ぼす背景雑音や伝達損失を有する携帯端末上での仮想会議におけるディープラーニング(DL)を用いた音声強調について検討した。 Deep Noise Suppression (DNS) Challenge データセットは実用的な障害を含まないため、T-Mobile ネットワーク上でZoom Meetings を用いて送信された DNS (t-DNS) データセットを収集する。 DemucsとFullSubNetの2つのベースラインモデルを選択します。 Demucsは時間領域の入力を受け、時間領域の認知音声を出力するエンド・ツー・エンドのモデルであり、FullSubNetは時間周波数領域の入力を受け、入力中のターゲット音声のエネルギー比を出力する。このプロジェクトの目標は、ディープラーニングモデルを使用して、セルラーネットワーク上で送信される音声を強化することである。

関連論文リスト

SigWavNet: Learning Multiresolution Signal Wavelet Network for Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、音声信号の解読から感情状態において重要な役割を果たす。本稿では,SERのための新しいエンド・ツー・エンド(E2E)深層学習フレームワークを提案する。ウェーブレットの能力を利用して、時間領域と周波数領域の両方で効果的なローカライズを行う。
論文参考訳（メタデータ） (2025-02-01T04:18:06Z)
Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文参考訳（メタデータ） (2024-12-24T18:56:46Z)
IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文参考訳（メタデータ） (2024-10-09T05:04:31Z)
FINALLY: fast and universal speech enhancement with studio-like quality [7.207284147264852]
本稿では,様々な歪みを含む実世界の録音における音声強調の課題に対処する。本研究では, 対人訓練の安定性を高めるために, 知覚喪失のための様々な特徴抽出器について検討した。我々は、WavLMに基づく知覚損失をMS-STFT逆行訓練パイプラインに統合し、音声強調モデルの効果的で安定した訓練手順を作成する。
論文参考訳（メタデータ） (2024-10-08T11:16:03Z)
VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文参考訳（メタデータ） (2024-08-11T12:24:23Z)
Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文参考訳（メタデータ） (2024-06-26T07:39:20Z)
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文参考訳（メタデータ） (2024-06-13T17:28:13Z)
Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using Spatial Transformer Networks [0.24466725954625895]
無声音声インタフェース(SSI)は,特定の条件下での調音運動データから知能音声を合成することができる。結果として得られるモデルは話者固有のもので、ユーザ間の迅速な切り替えが厄介になる。我々は、入力画像上でアフィン変換を行うことのできる空間変換器ネットワーク(STN)モジュールを用いて、ディープネットワークを拡張した。
論文参考訳（メタデータ） (2023-05-30T15:41:47Z)
Guided Speech Enhancement Network [17.27704800294671]
マルチマイクロホン音声強調問題は、空間フィルタリングを提供するビームフォーマと単一チャンネル音声強調モデルという2つの分離されたステップに分解されることが多い。 MLモデルの入力として生マイクとビームフォーマの出力を併用した音声強調ソリューションを提案する。我々は、MLモジュールをGSENetと命名し、ガイド付き音声強調ネットワークの略とした。
論文参考訳（メタデータ） (2023-03-13T21:48:20Z)
Cellular Network Speech Enhancement: Removing Background and Transmission Noise [0.0]
本稿では, 産業性能に勝って1.92 PESQ と 0.88 STOI を達成する方法と, 優れた音響忠実度, 知覚品質, インテリジェンス性を示す。
論文参考訳（メタデータ） (2023-01-22T00:18:10Z)
A Study of Designing Compact Audio-Visual Wake Word Spotting System Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文参考訳（メタデータ） (2022-02-17T08:26:25Z)
Decoupling Pronunciation and Language for End-to-end Code-switching Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文参考訳（メタデータ） (2020-10-28T07:46:15Z)
Deep Speaker Embeddings for Far-Field Speaker Recognition on Short Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文参考訳（メタデータ） (2020-02-14T13:34:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。