論文の概要: LC4SV: A Denoising Framework Learning to Compensate for Unseen Speaker
Verification Models
- arxiv url: http://arxiv.org/abs/2311.16604v1
- Date: Tue, 28 Nov 2023 08:44:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 19:25:22.286759
- Title: LC4SV: A Denoising Framework Learning to Compensate for Unseen Speaker
Verification Models
- Title(参考訳): LC4SV: 未知の話者検証モデルを補うためのフレームワーク学習
- Authors: Chi-Chang Lee, Hong-Wei Chen, Chu-Song Chen, Hsin-Min Wang, Tsung-Te
Liu, Yu Tsao
- Abstract要約: 音声強調(SE)モジュールは、フロントエンド戦略として使用できる。
既存のSEメソッドは、SEモデルの予測信号のアーチファクトのため、下流のSVシステムにパフォーマンス改善をもたらすことができない。
本稿では,未知の下流SVモデルのプリプロセッサとして機能するLC4SVという汎用デノベーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 41.228425912671995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of speaker verification (SV) models may drop dramatically in
noisy environments. A speech enhancement (SE) module can be used as a front-end
strategy. However, existing SE methods may fail to bring performance
improvements to downstream SV systems due to artifacts in the predicted signals
of SE models. To compensate for artifacts, we propose a generic denoising
framework named LC4SV, which can serve as a pre-processor for various unknown
downstream SV models. In LC4SV, we employ a learning-based interpolation agent
to automatically generate the appropriate coefficients between the enhanced
signal and its noisy input to improve SV performance in noisy environments. Our
experimental results demonstrate that LC4SV consistently improves the
performance of various unseen SV systems. To the best of our knowledge, this
work is the first attempt to develop a learning-based interpolation scheme
aiming at improving SV performance in noisy environments.
- Abstract(参考訳): 話者検証(SV)モデルの性能はノイズの多い環境で劇的に低下する可能性がある。
音声強調(SE)モジュールは、フロントエンド戦略として使用できる。
しかし、既存のseメソッドは、seモデルの予測信号のアーティファクトのため、下流のsvシステムにパフォーマンス改善をもたらすことができないかもしれない。
アーティファクトを補うために,様々な未知の下流svモデルのプリプロセッサとして機能するlc4svという汎用除算フレームワークを提案する。
LC4SVでは,拡張信号とその雑音入力の間の適切な係数を自動的に生成し,ノイズの多い環境でのSV性能を向上させるために,学習ベースの補間エージェントを用いる。
実験の結果,LC4SVは様々な未確認SVシステムの性能を一貫して改善することがわかった。
我々の知る限り、本研究はノイズの多い環境下でのSV性能向上を目的とした学習ベース補間スキームの最初の試みである。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - Simultaneous or Sequential Training? How Speech Representations
Cooperate in a Multi-Task Self-Supervised Learning System [12.704529528199064]
最近の研究は、表現学習のための自己教師付き学習(SSL)と視覚接地音声(VGS)処理機構を組み合わせたものである。
マルチタスク学習システムとして,wav2vec 2.0ベースのSSLとトランスフォーマーベースのVGSの協調最適化について検討した。
論文 参考訳(メタデータ) (2023-06-05T15:35:19Z) - Coarse-to-Fine Video Denoising with Dual-Stage Spatial-Channel
Transformer [29.03463312813923]
Video Denoisingは、ノイズの多いビデオから高品質なフレームを復元することを目的としている。
既存のほとんどのアプローチでは、畳み込みニューラルネットワーク(CNN)を使用して、ノイズを元の視覚コンテンツから分離する。
粗大な映像をデノナイズするためのDual-stage Spatial-Channel Transformer (DSCT)を提案する。
論文 参考訳(メタデータ) (2022-04-30T09:01:21Z) - MANet: Improving Video Denoising with a Multi-Alignment Network [72.93429911044903]
本稿では,複数フローの提案とアテンションに基づく平均化を行うマルチアライメントネットワークを提案する。
大規模ビデオデータセットを用いた実験により,本手法は調音ベースラインモデルを0.2dBで改善することを示した。
論文 参考訳(メタデータ) (2022-02-20T00:52:07Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - A Unified Deep Learning Framework for Short-Duration Speaker
Verification in Adverse Environments [16.91453126121351]
話者検証(SV)システムは、特に雑音や残響環境において、短い音声セグメントに対して堅牢であるべきである。
これら2つの要件を満たすため、機能ピラミッドモジュール(FPM)ベースのマルチスケールアグリゲーション(MSA)と自己適応型ソフトVAD(SAS-VAD)を導入する。
SV、VAD、SEモデルを統合されたディープラーニングフレームワークで組み合わせ、エンドツーエンドでネットワーク全体を共同でトレーニングします。
論文 参考訳(メタデータ) (2020-10-06T04:51:45Z) - IMS at SemEval-2020 Task 1: How low can you go? Dimensionality in
Lexical Semantic Change Detection [17.382892490756607]
我々は,Ngative Smplingを用いたSkip-Gramに基づく語彙意味変化検出モデルを利用する。
本研究では,Vector Initialization (VI)アライメントに着目し,VectorをSubtask 2の上位モデルと比較し,Vectorの次元を最適化すれば性能が向上することを示した。
論文 参考訳(メタデータ) (2020-08-07T13:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。