Fugu-MT 論文翻訳(概要): Speech enhancement aided end-to-end multi-task learning for voice activity detection

論文の概要: Speech enhancement aided end-to-end multi-task learning for voice activity detection

arxiv url: http://arxiv.org/abs/2010.12484v3
Date: Tue, 13 Apr 2021 08:03:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 00:19:44.498308
Title: Speech enhancement aided end-to-end multi-task learning for voice activity detection
Title（参考訳）: 音声活動検出のためのエンドツーエンドマルチタスク学習を支援する音声強調
Authors: Xu Tan, Xiao-Lei Zhang
Abstract要約: 音声強調は音声活動検出(VAD)に役立つが、性能改善は限られている。 VADのための音声強調支援型エンドツーエンドマルチタスクモデルを提案する。 mSI-SDRは、トレーニングプロセスにおいて、VAD情報を使用して、音声強調デコーダの出力を隠蔽する。
参考スコア（独自算出の注目度）: 40.44466027163059
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robust voice activity detection (VAD) is a challenging task in low signal-to-noise (SNR) environments. Recent studies show that speech enhancement is helpful to VAD, but the performance improvement is limited. To address this issue, here we propose a speech enhancement aided end-to-end multi-task model for VAD. The model has two decoders, one for speech enhancement and the other for VAD. The two decoders share the same encoder and speech separation network. Unlike the direct thought that takes two separated objectives for VAD and speech enhancement respectively, here we propose a new joint optimization objective -- VAD-masked scale-invariant source-to-distortion ratio (mSI-SDR). mSI-SDR uses VAD information to mask the output of the speech enhancement decoder in the training process. It makes the VAD and speech enhancement tasks jointly optimized not only at the shared encoder and separation network, but also at the objective level. It also satisfies real-time working requirement theoretically. Experimental results show that the multi-task method significantly outperforms its single-task VAD counterpart. Moreover, mSI-SDR outperforms SI-SDR in the same multi-task setting.
Abstract（参考訳）: ロバスト音声活動検出(VAD)は低信号雑音(SNR)環境での課題である。近年の研究では、音声強調はVADに役立つが、性能改善は限られている。この問題に対処するため,VADのための音声強調支援マルチタスクモデルを提案する。このモデルには2つのデコーダがあり、1つは音声強調用、もう1つはVAD用である。 2つのデコーダは同じエンコーダと音声分離ネットワークを共有している。 VADと音声強調の2つの目的を分離した直接的思考とは違って,新たな共同最適化目標であるVAD-masked Scale-invariant source-to-distortion ratio (mSI-SDR)を提案する。 msi-sdrはvad情報を使用して、訓練過程における音声強調デコーダの出力をマスキングする。これにより、vadと音声強調タスクは、共有エンコーダと分離ネットワークだけでなく、目的レベルでも協調的に最適化される。また、理論上はリアルタイムの作業要件を満たす。実験の結果,マルチタスク方式は単一タスクのVADよりも有意に優れていた。さらに、mSI-SDRは同じマルチタスク設定でSI-SDRより優れる。

関連論文リスト

Towards Robust Overlapping Speech Detection: A Speaker-Aware Progressive Approach Using WavLM [53.17360668423001]
重なり合う音声検出(OSD)は、会話中に複数の話者が重複する領域を特定することを目的としている。本研究では,サブタスク間の相関性を高めるために,プログレッシブトレーニング戦略を活用する話者対応プログレッシブOSDモデルを提案する。実験の結果,提案手法は,AMIテストセット上でF1スコアが82.76%の最先端性能を実現することがわかった。
論文参考訳（メタデータ） (2025-05-29T07:47:48Z)
CoGenAV: Versatile Audio-Visual Representation Learning via Contrastive-Generative Synchronization [16.372875825530787]
CoGenAVは、汎用的なオーディオ視覚表現を学習するために設計された、強力でデータ効率のよいモデルである。 CoGenAVは、自然な音声-視覚同期、対照的な特徴アライメント、生成テキスト予測から導かれる2つの目的を最適化することで訓練される。複数のベンチマークで学習したCoGenAV表現の有効性と汎用性を示す。
論文参考訳（メタデータ） (2025-05-06T05:07:11Z)
SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions [48.02083833667388]
仮想アシスタントインタラクションのための言語モデルであるSELMAを提示し,評価する。オーディオエンコーダとLarge Language Modelの両方のパラメータ効率訓練に低ランク適応モジュールを用いる。
論文参考訳（メタデータ） (2025-01-31T18:30:36Z)
DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文参考訳（メタデータ） (2024-06-13T17:28:13Z)
WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。 ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文参考訳（メタデータ） (2024-03-31T12:01:32Z)
Joint speech and overlap detection: a benchmark over multiple audio setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文参考訳（メタデータ） (2023-07-24T14:29:21Z)
Improving Code-Switching and Named Entity Recognition in ASR with Speech Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文参考訳（メタデータ） (2023-06-14T15:50:13Z)
Encoder-decoder multimodal speaker change detection [15.290910973040152]
話者変化検出(SCD)はいくつかのアプリケーションに必須である。音声に加えてテキストモダリティを利用するマルチモーダルSCDモデルでは,性能が向上した。本研究は、モダリティ融合のための新しいメカニズムとエンコーダ・デコーダアーキテクチャの採用という、2つの主要な提案に基づいている。
論文参考訳（メタデータ） (2023-06-01T13:55:23Z)
UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。第1パスデコーダのサブワード予測によりモデル性能を向上させる。提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文参考訳（メタデータ） (2022-12-15T18:58:28Z)
Long-Running Speech Recognizer:An End-to-End Multi-Task Learning Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文参考訳（メタデータ） (2021-03-02T11:49:03Z)
Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。 D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文参考訳（メタデータ） (2020-10-30T20:26:28Z)
Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文参考訳（メタデータ） (2020-05-18T04:02:08Z)
Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。本稿では,2段階音声認識モデルを提案する。第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文参考訳（メタデータ） (2020-05-12T07:56:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。