論文の概要: Parameterized Channel Normalization for Far-field Deep Speaker
Verification
- arxiv url: http://arxiv.org/abs/2109.12056v1
- Date: Fri, 24 Sep 2021 16:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 17:52:44.157667
- Title: Parameterized Channel Normalization for Far-field Deep Speaker
Verification
- Title(参考訳): Far-field Deep Speaker Verificationのためのパラメータ化チャネル正規化
- Authors: Xuechen Liu, Md Sahidullah, Tomi Kinnunen
- Abstract要約: 我々は、チャネルごとのエネルギー正規化(PCEN)とパラメータ化ケプストラム平均正規化(PCMN)の2つのパラメトリック正規化手法に注目した。
我々は,近年の大規模遠距離音声コーパスであるHi-MIAの性能評価を行った。
提案手法は, 整合マイクロホンと整合マイクロホン条件下での等価誤差率に対して, 最大33.5%, 39.5%の相対的改善を達成し, 従来のメルフィルタバンク特性より優れていた。
- 参考スコア(独自算出の注目度): 21.237143465298505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address far-field speaker verification with deep neural network (DNN)
based speaker embedding extractor, where mismatch between enrollment and test
data often comes from convolutive effects (e.g. room reverberation) and noise.
To mitigate these effects, we focus on two parametric normalization methods:
per-channel energy normalization (PCEN) and parameterized cepstral mean
normalization (PCMN). Both methods contain differentiable parameters and thus
can be conveniently integrated to, and jointly optimized with the DNN using
automatic differentiation methods. We consider both fixed and trainable
(data-driven) variants of each method. We evaluate the performance on Hi-MIA, a
recent large-scale far-field speech corpus, with varied microphone and
positional settings. Our methods outperform conventional mel filterbank
features, with maximum of 33.5% and 39.5% relative improvement on equal error
rate under matched microphone and mismatched microphone conditions,
respectively.
- Abstract(参考訳): 本稿では,深層ニューラルネットワーク(dnn)に基づく話者埋め込み抽出器を用いた遠方領域話者照合について検討する。
これらの効果を緩和するために,チャネル毎エネルギー正規化(pcen)とパラメータ化ケプストラム平均正規化(pcmn)の2つのパラメトリック正規化法に注目した。
どちらの手法も微分可能なパラメータを含んでおり、自動微分法を用いてDNNと共同で最適化できる。
各メソッドの固定およびトレーニング可能な(データ駆動)変種について検討する。
マイクロホンと位置設定の異なる,最近の大規模遠隔地音声コーパスであるhi-miaの性能評価を行った。
提案手法は従来のメルフィルタバンクよりも優れており,一致マイクロホンと不一致マイクロホンでは最大33.5%,相対的に39.5%改善した。
関連論文リスト
- Blind Estimation of Sub-band Acoustic Parameters from Ambisonics Recordings using Spectro-Spatial Covariance Features [10.480691005356967]
10個の周波数帯域にわたる残響時間(T60)、直接残響率(DRR)、明瞭度(C50)を盲目的に推定する統合フレームワークを提案する。
提案フレームワークは, 時間, スペクトル, およびFOA信号の空間情報を効率的に表現する, Spectro-Spatial Co Vector (SSCV) と呼ばれる新しい特徴を利用する。
論文 参考訳(メタデータ) (2024-11-05T15:20:23Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Improved far-field speech recognition using Joint Variational
Autoencoder [5.320201231911981]
Denoising Autoencoder (DA) を用いた遠距離場から近距離空間への音声特徴のマッピングを提案する。
具体的には,単語誤り率(WER)の絶対的な改善は,DAに基づく拡張に比べて2.5%,遠距離フィルタバンクで直接訓練されたAMに比べて3.96%であった。
論文 参考訳(メタデータ) (2022-04-24T14:14:04Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Fusion of Range and Stereo Data for High-Resolution Scene-Modeling [20.824550995195057]
本稿では,高分解能深度マップの構築において,レンジステレオ融合の問題に対処する。
低分解能深度データと高分解能ステレオデータとを最大後部(MAP)定式化で組み合わせる。
エネルギー関数におけるデータ期間の3つの特性のために、方法の精度は損なわれません。
論文 参考訳(メタデータ) (2020-12-12T09:37:42Z) - AdaStereo: A Simple and Efficient Approach for Adaptive Stereo Matching [50.06646151004375]
AdaStereoと呼ばれる新しいドメイン適応パイプラインは、ディープステレオマッチングネットワークにマルチレベル表現をアライメントすることを目的としている。
我々のAdaStereoモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のステレオベンチマークで最先端のクロスドメインパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-09T16:15:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。