論文の概要: Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations
- arxiv url: http://arxiv.org/abs/2009.00768v2
- Date: Wed, 9 Sep 2020 16:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 20:04:42.392264
- Title: Speaker Representation Learning using Global Context Guided Channel and
Time-Frequency Transformations
- Title(参考訳): グローバルコンテキスト誘導チャネルと時間周波数変換を用いた話者表現学習
- Authors: Wei Xia, John H.L. Hansen
- Abstract要約: グローバルな文脈情報を用いて、重要なチャネルを強化し、有意義な時間周波数位置を再検討する。
提案されたモジュールは、人気のあるResNetベースのモデルとともに、VoxCeleb1データセットで評価される。
- 参考スコア(独自算出の注目度): 67.18006078950337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we propose the global context guided channel and
time-frequency transformations to model the long-range, non-local
time-frequency dependencies and channel variances in speaker representations.
We use the global context information to enhance important channels and
recalibrate salient time-frequency locations by computing the similarity
between the global context and local features. The proposed modules, together
with a popular ResNet based model, are evaluated on the VoxCeleb1 dataset,
which is a large scale speaker verification corpus collected in the wild. This
lightweight block can be easily incorporated into a CNN model with little
additional computational costs and effectively improves the speaker
verification performance compared to the baseline ResNet-LDE model and the
Squeeze&Excitation block by a large margin. Detailed ablation studies are also
performed to analyze various factors that may impact the performance of the
proposed modules. We find that by employing the proposed L2-tf-GTFC
transformation block, the Equal Error Rate decreases from 4.56% to 3.07%, a
relative 32.68% reduction, and a relative 27.28% improvement in terms of the
DCF score. The results indicate that our proposed global context guided
transformation modules can efficiently improve the learned speaker
representations by achieving time-frequency and channel-wise feature
recalibration.
- Abstract(参考訳): 本研究では,長距離非局所的時間周波数依存性と話者表現におけるチャネル分散をモデル化するために,グローバルな文脈案内チャネルと時間周波数変換を提案する。
グローバルコンテキスト情報を用いて,グローバルコンテキストと局所的な特徴の類似度を計算し,重要なチャネルを強化し,所望の時間周波数位置を再調整する。
提案するモジュールは、人気のあるresnetベースのモデルとともに、野生で収集された大規模話者照合コーパスであるvoxceleb1データセット上で評価される。
この軽量ブロックは、計算コストの少ないCNNモデルに容易に組み込むことができ、ベースラインのResNet-LDEモデルやSqueeze&Excitationブロックと比較して、話者検証性能を大幅に向上させることができる。
詳細なアブレーション研究も行われ、提案モジュールの性能に影響を与える様々な要因を分析する。
提案したL2-tf-GTFC変換ブロックを用いることで, 平衡誤差率を4.56%から3.07%に低下させ, 相対32.68%, 相対27.28%改善した。
その結果,提案するグローバルな文脈案内型変換モジュールは,時間周波数とチャネルワイドの特徴再構成を達成し,学習した話者表現を効率的に改善できることを示す。
関連論文リスト
- R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Score-CDM: Score-Weighted Convolutional Diffusion Model for Multivariate Time Series Imputation [0.035984704795350306]
MTS(Multivariant Time Series)データは通常、実際のシナリオでは不完全である。
本稿では,Score-weighted Convolutional Diffusion Model (Score-CDM)を提案する。背骨はScore-weighted Convolution Module (SCM)とAdaptive Reception Module (ARM)から構成される。
我々は,異なる領域の3つの実MCSデータセットに対して広範囲に評価を行い,提案したScore-CDMの有効性を検証する。
論文 参考訳(メタデータ) (2024-05-21T02:00:55Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Speech Enhancement with Perceptually-motivated Optimization and Dual
Transformations [5.4878772986187565]
本稿では、PT-FSEと呼ばれる、知覚的モチベーションのある最適化と二重変換を備えたサブバンドベース音声強調システムを提案する。
提案モデルでは背骨よりも大幅に改善されているが,SOTAよりも27%小さく,現状よりも優れていた。
ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T02:33:40Z) - Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning [41.44950556040058]
本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
論文 参考訳(メタデータ) (2022-07-10T21:19:36Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Delay Minimization for Federated Learning Over Wireless Communication
Networks [172.42768672943365]
無線通信ネットワーク上でのフェデレーション学習(FL)における遅延計算の問題について検討した。
最適解を得るために,二項探索アルゴリズムを提案する。
シミュレーションの結果,提案アルゴリズムは従来のFL法と比較して最大27.3%遅延を低減できることがわかった。
論文 参考訳(メタデータ) (2020-07-05T19:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。