論文の概要: MR-RawNet: Speaker verification system with multiple temporal resolutions for variable duration utterances using raw waveforms
- arxiv url: http://arxiv.org/abs/2406.07103v1
- Date: Tue, 11 Jun 2024 09:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:34:54.479912
- Title: MR-RawNet: Speaker verification system with multiple temporal resolutions for variable duration utterances using raw waveforms
- Title(参考訳): MR-RawNet:原波形を用いた可変時間発話のための複数時間分解能話者検証システム
- Authors: Seung-bin Kim, Chan-yeong Lim, Jungwoo Heo, Ju-ho Kim, Hyun-seo Shin, Kyo-Won Koo, Ha-Jin Yu,
- Abstract要約: MR-RawNetは、可変発話に対する話者検証システムの堅牢性を高めるように設計されている。
MR-RawNetは、多分解能特徴抽出器を介して生波形から時間周波数表現を抽出する。
VoxCeleb1データセットを用いて行った実験結果から,MR-RawNetは可変長発話の処理において優れた性能を示すことが示された。
- 参考スコア(独自算出の注目度): 35.117789338838186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In speaker verification systems, the utilization of short utterances presents a persistent challenge, leading to performance degradation primarily due to insufficient phonetic information to characterize the speakers. To overcome this obstacle, we propose a novel structure, MR-RawNet, designed to enhance the robustness of speaker verification systems against variable duration utterances using raw waveforms. The MR-RawNet extracts time-frequency representations from raw waveforms via a multi-resolution feature extractor that optimally adjusts both temporal and spectral resolutions simultaneously. Furthermore, we apply a multi-resolution attention block that focuses on diverse and extensive temporal contexts, ensuring robustness against changes in utterance length. The experimental results, conducted on VoxCeleb1 dataset, demonstrate that the MR-RawNet exhibits superior performance in handling utterances of variable duration compared to other raw waveform-based systems.
- Abstract(参考訳): 話者認証システムでは、短い発話の利用が持続的な課題となり、主に話者を特徴づける音声情報が不十分なため、性能が低下する。
この障害を克服するために、原波形を用いた可変長発声に対する話者検証システムの堅牢性を高めるために、新しい構造であるMR-RawNetを提案する。
MR-RawNetは、時間分解能とスペクトル分解能の両方を最適に調整する多分解能特徴抽出器を介して生波形から時間周波数表現を抽出する。
さらに,多種多様な時間的文脈に着目し,発話長の変化に対する頑健性を確保するマルチレゾリューション・アテンション・ブロックを適用した。
VoxCeleb1データセットを用いて行った実験結果から,MR-RawNetは,他の生波形ベースシステムと比較して,可変長の発話に優れた性能を示すことが示された。
関連論文リスト
- RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks [4.132793413136553]
可変長アテンション機構を備えたピンブルモジュールであるEcho-MSAを紹介する。
提案した設計は,音声の可変長の特徴を捉え,固定長注意の限界に対処する。
論文 参考訳(メタデータ) (2023-09-14T14:51:51Z) - Gated Recurrent Neural Networks with Weighted Time-Delay Feedback [59.125047512495456]
重み付き時間遅延フィードバック機構を備えた新しいゲートリカレントユニット(GRU)を導入する。
我々は、$tau$-GRUが、最先端のリカレントユニットやゲート型リカレントアーキテクチャよりも早く収束し、より一般化できることを示します。
論文 参考訳(メタデータ) (2022-12-01T02:26:34Z) - SkipConvGAN: Monaural Speech Dereverberation using Generative
Adversarial Networks via Complex Time-Frequency Masking [1.6434906720016411]
本研究では,SkipConvGANを提案する。
提案方式のジェネレータネットワークは、効率的な複雑な時間周波数マスクを推定し、判別器ネットワークは、失われたフォルマント構造を復元するためにジェネレータを駆動する。
本稿では,REVERBチャレンジコーパスの単一チャンネルタスクからの残響音声のシミュレートと実写記録について,提案システムの性能評価を行った。
論文 参考訳(メタデータ) (2022-11-22T23:02:49Z) - Acoustic To Articulatory Speech Inversion Using Multi-Resolution
Spectro-Temporal Representations Of Speech Signals [5.743287315640403]
フィードフォワードディープニューラルネットワークをトレーニングし、6つのトラクト変数の明瞭な軌跡を推定する。
実験は、0.675と接地軌道変数の相関を達成した。
論文 参考訳(メタデータ) (2022-03-11T07:27:42Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Raw Waveform Encoder with Multi-Scale Globally Attentive Locally
Recurrent Networks for End-to-End Speech Recognition [45.858039215825656]
本稿では,グローバルな注意的局所再帰(GALR)ネットワークを採用し,生波形を直接入力とする新しいエンコーダを提案する。
ベンチマークデータセットAISHELL-2と,5,000時間21,000時間の大規模マンダリン音声コーパスを用いて実験を行った。
論文 参考訳(メタデータ) (2021-06-08T12:12:33Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。