論文の概要: Phoneme-aware and Channel-wise Attentive Learning for Text
DependentSpeaker Verification
- arxiv url: http://arxiv.org/abs/2106.13514v1
- Date: Fri, 25 Jun 2021 09:11:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 12:53:06.829317
- Title: Phoneme-aware and Channel-wise Attentive Learning for Text
DependentSpeaker Verification
- Title(参考訳): テキスト依存話者検証のための音素認識とチャネル毎注意学習
- Authors: Yan Liu, Zheng Li, Lin Li, Qingyang Hong
- Abstract要約: 本稿では,テキスト依存型話者検証(SV)のための音素認識型マルチタスク学習ネットワークとチャネルワイド学習戦略を提案する。
提案システムはテキスト依存型SVの優れた結果を得る。
- 参考スコア(独自算出の注目度): 21.826585075806573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a multi-task learning network with phoneme-aware and
channel-wise attentive learning strategies for text-dependent Speaker
Verification (SV). In the proposed structure, the frame-level multi-task
learning along with the segment-level adversarial learning is adopted for
speaker embedding extraction. The phoneme-aware attentive pooling is exploited
on frame-level features in the main network for speaker classifier, with the
corresponding posterior probability for the phoneme distribution in the
auxiliary subnet. Further, the introduction of Squeeze and Excitation
(SE-block) performs dynamic channel-wise feature recalibration, which improves
the representational ability. The proposed method exploits speaker
idiosyncrasies associated with pass-phrases, and is further improved by the
phoneme-aware attentive pooling and SE-block from temporal and channel-wise
aspects, respectively. The experiments conducted on RSR2015 Part 1 database
confirm that the proposed system achieves outstanding results for textdependent
SV.
- Abstract(参考訳): 本稿では,テキスト依存型話者認証(SV)のための音素認識型マルチタスク学習ネットワークを提案する。
提案手法では,フレームレベルのマルチタスク学習とセグメントレベルの逆学習を併用して話者埋め込み抽出を行う。
話者分類器の主ネットワークにおけるフレームレベルの特徴に、補助サブネットにおける音素分布に対する対応する後続確率を利用して音素認識注意プールを行う。
さらに、Squeeze and Excitation(SE-block)の導入により、動的チャネルワイズ機能の再検討が行われ、表現能力が向上する。
提案手法は, パスフレーズに関連する話者イディオ同期を活用し, 時間的, チャネル的側面から音素対応の注意プーリングとseブロックによりさらに改善する。
RSR2015 Part 1データベースで行った実験により,本システムはテキスト依存型SVに対して優れた結果が得られることを確認した。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Relational Proxy Loss for Audio-Text based Keyword Spotting [8.932603220365793]
本研究の目的は, 構造的音響埋め込みとテキスト埋め込みの活用による既存手法の改善である。
RPLを組み込むことで,ウォールストリートジャーナル(WSJ)コーパスの性能向上を実証した。
論文 参考訳(メタデータ) (2024-06-08T01:21:17Z) - Phonetic-aware speaker embedding for far-field speaker verification [25.50311094643337]
遠距離場話者検証のための音声コンテンツを活用するための共同学習音声認識と話者認識フレームワークを提案する。
このフレームワークは、話者埋め込みネットワークのフレームベースの特徴マップとwav2vecのベクトルとをマッチングすることにより、話者埋め込みが音声情報を保存することを奨励する。
提案したフレームワークは,VOiCES Challenge 2019評価セットとVoxCeleb1テストセットの標準話者埋め込みよりも優れていた。
論文 参考訳(メタデータ) (2023-11-27T08:45:35Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。