論文の概要: A Unified Deep Speaker Embedding Framework for Mixed-Bandwidth Speech
Data
- arxiv url: http://arxiv.org/abs/2012.00486v1
- Date: Tue, 1 Dec 2020 13:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 05:17:27.733273
- Title: A Unified Deep Speaker Embedding Framework for Mixed-Bandwidth Speech
Data
- Title(参考訳): 混合帯域音声データのための統合深層話者埋め込みフレームワーク
- Authors: Weicheng Cai, Ming Li
- Abstract要約: 本稿では,異なるサンプリングレートで音声データをモデル化するための統合型ディープ話者埋め込みフレームワークを提案する。
狭帯域分光図を広帯域分光図のサブイメージとして考慮し、画像分類法により混合帯域データの連成モデリング問題に取り組む。
- 参考スコア(独自算出の注目度): 19.896231193903297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a unified deep speaker embedding framework for modeling
speech data with different sampling rates. Considering the narrowband
spectrogram as a sub-image of the wideband spectrogram, we tackle the joint
modeling problem of the mixed-bandwidth data in an image classification manner.
From this perspective, we elaborate several mixed-bandwidth joint training
strategies under different training and test data scenarios. The proposed
systems are able to flexibly handle the mixed-bandwidth speech data in a single
speaker embedding model without any additional downsampling, upsampling,
bandwidth extension, or padding operations. We conduct extensive experimental
studies on the VoxCeleb1 dataset. Furthermore, the effectiveness of the
proposed approach is validated by the SITW and NIST SRE 2016 datasets.
- Abstract(参考訳): 本稿では,異なるサンプリング率で音声データをモデル化するための統合型深層話者埋め込みフレームワークを提案する。
広帯域スペクトログラムのサブイメージとして,狭帯域スペクトログラムを考慮し,画像分類手法を用いて混合帯域データの合同モデリング問題に取り組む。
この観点から,異なるトレーニングシナリオとテストデータシナリオにおいて,複数の混合帯域幅合同トレーニング戦略を詳述する。
提案するシステムは,単一の話者埋め込みモデルにおいて,帯域幅の混合音声データを柔軟に処理でき,追加のダウンサンプリングやアップサンプリング,帯域幅拡張,パディング操作が不要である。
voxceleb1データセットに関する広範な実験を行った。
さらに,提案手法の有効性をSITWとNIST SRE 2016データセットで検証した。
関連論文リスト
- Diffusion-Driven Semantic Communication for Generative Models with Bandwidth Constraints [27.049330099874396]
本稿では,帯域制限付き生成モデルのための,高度なVAEベースの圧縮を用いた拡散駆動型セマンティック通信フレームワークを提案する。
実験の結果,ピーク信号対雑音比 (PSNR) などの画素レベルの指標と,LPIPS (Learning Perceptual Image patch similarity) のような意味的指標が大幅に改善された。
論文 参考訳(メタデータ) (2024-07-26T02:34:25Z) - MB-RACS: Measurement-Bounds-based Rate-Adaptive Image Compressed Sensing Network [65.1004435124796]
本稿では,MB-RACS(Message-Bounds-based Rate-Adaptive Image Compressed Sensing Network)フレームワークを提案する。
実験により,提案手法が現在の先行手法を超越していることが実証された。
論文 参考訳(メタデータ) (2024-01-19T04:40:20Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multi-modal data generation with a deep metric variational autoencoder [1.3315493279442265]
変分オートエンコーダは、潜時空間における三重項損失を採用し、各クラスクラスタ内の潜時空間をサンプリングすることで条件付きデータ生成を可能にする。
本手法は, 広帯域ティンパノメトリー測定による鼓膜観察画像からなるマルチモーダルデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-02-07T15:00:02Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - MultiSV: Dataset for Far-Field Multi-Channel Speaker Verification [0.0]
本稿では,テキスト非依存型マルチチャネル話者検証システムの訓練と評価を目的とした包括的コーパスを提案する。
また、難聴、難聴、音声強調などの実験にも容易に利用できる。
論文 参考訳(メタデータ) (2021-11-11T20:55:58Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Ensemble Model with Batch Spectral Regularization and Data Blending for
Cross-Domain Few-Shot Learning with Unlabeled Data [75.94147344921355]
多様な特徴変換行列を用いてマルチブランチアンサンブルフレームワークを構築する。
本研究では,未ラベルデータを利用したデータブレンディング手法を提案し,対象領域におけるスパースサポートを増強する。
論文 参考訳(メタデータ) (2020-06-08T02:27:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。