論文の概要: Siamese Capsule Network for End-to-End Speaker Recognition In The Wild
- arxiv url: http://arxiv.org/abs/2009.13480v1
- Date: Mon, 28 Sep 2020 17:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 22:42:04.625227
- Title: Siamese Capsule Network for End-to-End Speaker Recognition In The Wild
- Title(参考訳): Siamese Capsule Network for End-to-End Speaker Recognition in the Wild
- Authors: Amirhossein Hajavi, Ali Etemad
- Abstract要約: 本研究では,野生における話者検証のためのエンド・ツー・エンドのディープモデルを提案する。
提案モデルでは, 話者埋め込みを発話から抽出するThin-ResNetと, シームズカプセルネットワークを用いた。
- 参考スコア(独自算出の注目度): 25.71206255965502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose an end-to-end deep model for speaker verification in the wild. Our
model uses thin-ResNet for extracting speaker embeddings from utterances and a
Siamese capsule network and dynamic routing as the Back-end to calculate a
similarity score between the embeddings. We conduct a series of experiments and
comparisons on our model to state-of-the-art solutions, showing that our model
outperforms all the other models using substantially less amount of training
data. We also perform additional experiments to study the impact of different
speaker embeddings on the Siamese capsule network. We show that the best
performance is achieved by using embeddings obtained directly from the feature
aggregation module of the Front-end and passing them to higher capsules using
dynamic routing.
- Abstract(参考訳): 本研究では,野生における話者検証のためのエンドツーエンドのディープモデルを提案する。
本モデルでは,音声から話者の埋め込みを抽出し,siameseカプセルネットワークと動的ルーティングをバックエンドとして利用し,類似度スコアを算出した。
我々は,我々のモデルを最先端ソリューションと比較した一連の実験を行い,トレーニングデータ量を大幅に削減することで,モデルが他のすべてのモデルを上回ることを示した。
また、シームズカプセルネットワークにおける異なる話者埋め込みの影響を研究するための追加実験を行った。
本稿では,フロントエンドの機能集約モジュールから直接取得した埋め込みを動的ルーティングを用いて高カプセルに渡すことで,最高の性能を実現することを示す。
関連論文リスト
- Diffusion-Based Speech Enhancement in Matched and Mismatched Conditions
Using a Heun-Based Sampler [16.13996677489119]
拡散モデルは、最近音声強調にうまく適用された新しい生成モデルである。
先行研究は、最先端の差別モデルと比較して、不一致条件下での優れた性能を実証している。
提案システムは,複数のデータベースをトレーニングに利用することにより,一致条件と一致条件の双方において,最先端の識別モデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-05T11:40:38Z) - Model-agnostic network inference enhancement from noisy measurements via
curriculum learning [14.670612989509465]
ノイズは実世界の計測データにおける広汎な要素であり、ネットワーク推論モデルの性能を損なう。
本稿では,ノイズの存在下でのネットワーク推論モデルの性能向上を目的とした,エレガントで効率的なフレームワークを提案する。
提案するフレームワークは,モデルに依存しない,シームレスにモデルベースおよびモデルフリーなネットワーク推論手法に組み込むことができる。
論文 参考訳(メタデータ) (2023-09-05T08:51:40Z) - Incomplete Utterance Rewriting as Sequential Greedy Tagging [0.0]
モデル話者変動に対する話者認識埋め込みを導入する。
本モデルでは,従来の最先端モデルに匹敵する他のスコアを持つとともに,9つの復元スコアに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-07-08T04:05:04Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing
Data [70.64030011999981]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Variational Capsule Encoder [6.244396213953519]
我々はベイジアンカプセル(B-Caps)と呼ばれる新しいカプセルネットワークに基づく変分エンコーダアーキテクチャを提案する。
このアプローチは、従来のアプローチよりも潜在領域における機能のより優れた表現を学習できる、という仮説を立てた。
この結果から,VAE設定下では検討されていない表現学習におけるカプセルネットワークの強みが示唆された。
論文 参考訳(メタデータ) (2020-10-18T20:52:16Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。