論文の概要: LC4SV: A Denoising Framework Learning to Compensate for Unseen Speaker
Verification Models
- arxiv url: http://arxiv.org/abs/2311.16604v1
- Date: Tue, 28 Nov 2023 08:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:25:22.286759
- Title: LC4SV: A Denoising Framework Learning to Compensate for Unseen Speaker
Verification Models
- Title(参考訳): LC4SV: 未知の話者検証モデルを補うためのフレームワーク学習
- Authors: Chi-Chang Lee, Hong-Wei Chen, Chu-Song Chen, Hsin-Min Wang, Tsung-Te
Liu, Yu Tsao
- Abstract要約: 音声強調(SE)モジュールは、フロントエンド戦略として使用できる。
既存のSEメソッドは、SEモデルの予測信号のアーチファクトのため、下流のSVシステムにパフォーマンス改善をもたらすことができない。
本稿では,未知の下流SVモデルのプリプロセッサとして機能するLC4SVという汎用デノベーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.228425912671995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of speaker verification (SV) models may drop dramatically in
noisy environments. A speech enhancement (SE) module can be used as a front-end
strategy. However, existing SE methods may fail to bring performance
improvements to downstream SV systems due to artifacts in the predicted signals
of SE models. To compensate for artifacts, we propose a generic denoising
framework named LC4SV, which can serve as a pre-processor for various unknown
downstream SV models. In LC4SV, we employ a learning-based interpolation agent
to automatically generate the appropriate coefficients between the enhanced
signal and its noisy input to improve SV performance in noisy environments. Our
experimental results demonstrate that LC4SV consistently improves the
performance of various unseen SV systems. To the best of our knowledge, this
work is the first attempt to develop a learning-based interpolation scheme
aiming at improving SV performance in noisy environments.
- Abstract(参考訳): 話者検証(SV)モデルの性能はノイズの多い環境で劇的に低下する可能性がある。
音声強調(SE)モジュールは、フロントエンド戦略として使用できる。
しかし、既存のseメソッドは、seモデルの予測信号のアーティファクトのため、下流のsvシステムにパフォーマンス改善をもたらすことができないかもしれない。
アーティファクトを補うために,様々な未知の下流svモデルのプリプロセッサとして機能するlc4svという汎用除算フレームワークを提案する。
LC4SVでは,拡張信号とその雑音入力の間の適切な係数を自動的に生成し,ノイズの多い環境でのSV性能を向上させるために,学習ベースの補間エージェントを用いる。
実験の結果,LC4SVは様々な未確認SVシステムの性能を一貫して改善することがわかった。
我々の知る限り、本研究はノイズの多い環境下でのSV性能向上を目的とした学習ベース補間スキームの最初の試みである。
関連論文リスト
- Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - MANet: Improving Video Denoising with a Multi-Alignment Network [72.93429911044903]
本稿では,複数フローの提案とアテンションに基づく平均化を行うマルチアライメントネットワークを提案する。
大規模ビデオデータセットを用いた実験により,本手法は調音ベースラインモデルを0.2dBで改善することを示した。
論文 参考訳(メタデータ) (2022-02-20T00:52:07Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - A Unified Deep Learning Framework for Short-Duration Speaker
Verification in Adverse Environments [16.91453126121351]
話者検証(SV)システムは、特に雑音や残響環境において、短い音声セグメントに対して堅牢であるべきである。
これら2つの要件を満たすため、機能ピラミッドモジュール(FPM)ベースのマルチスケールアグリゲーション(MSA)と自己適応型ソフトVAD(SAS-VAD)を導入する。
SV、VAD、SEモデルを統合されたディープラーニングフレームワークで組み合わせ、エンドツーエンドでネットワーク全体を共同でトレーニングします。
論文 参考訳(メタデータ) (2020-10-06T04:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。