論文の概要: Siamese Capsule Network for End-to-End Speaker Recognition In The Wild
- arxiv url: http://arxiv.org/abs/2009.13480v1
- Date: Mon, 28 Sep 2020 17:11:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 22:42:04.625227
- Title: Siamese Capsule Network for End-to-End Speaker Recognition In The Wild
- Title(参考訳): Siamese Capsule Network for End-to-End Speaker Recognition in the Wild
- Authors: Amirhossein Hajavi, Ali Etemad
- Abstract要約: 本研究では,野生における話者検証のためのエンド・ツー・エンドのディープモデルを提案する。
提案モデルでは, 話者埋め込みを発話から抽出するThin-ResNetと, シームズカプセルネットワークを用いた。
- 参考スコア(独自算出の注目度): 25.71206255965502
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose an end-to-end deep model for speaker verification in the wild. Our
model uses thin-ResNet for extracting speaker embeddings from utterances and a
Siamese capsule network and dynamic routing as the Back-end to calculate a
similarity score between the embeddings. We conduct a series of experiments and
comparisons on our model to state-of-the-art solutions, showing that our model
outperforms all the other models using substantially less amount of training
data. We also perform additional experiments to study the impact of different
speaker embeddings on the Siamese capsule network. We show that the best
performance is achieved by using embeddings obtained directly from the feature
aggregation module of the Front-end and passing them to higher capsules using
dynamic routing.
- Abstract(参考訳): 本研究では,野生における話者検証のためのエンドツーエンドのディープモデルを提案する。
本モデルでは,音声から話者の埋め込みを抽出し,siameseカプセルネットワークと動的ルーティングをバックエンドとして利用し,類似度スコアを算出した。
我々は,我々のモデルを最先端ソリューションと比較した一連の実験を行い,トレーニングデータ量を大幅に削減することで,モデルが他のすべてのモデルを上回ることを示した。
また、シームズカプセルネットワークにおける異なる話者埋め込みの影響を研究するための追加実験を行った。
本稿では,フロントエンドの機能集約モジュールから直接取得した埋め込みを動的ルーティングを用いて高カプセルに渡すことで,最高の性能を実現することを示す。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Applying Deep Neural Networks to automate visual verification of manual bracket installations in aerospace [0.6562256987706128]
本稿では,Siamese Neural Networkアーキテクチャに基づくディープラーニングに基づく自動視覚検査と検証アルゴリズムについて検討する。
我々は,複数の参照画像に対して単一のモデル投票を行うシームズニューラルネットワークに特有な新しい投票方式を開発した。
論文 参考訳(メタデータ) (2024-08-15T11:58:48Z) - Deep Companion Learning: Enhancing Generalization Through Historical Consistency [35.5237083057451]
本稿では,不整合モデル予測をペナライズすることによって一般化を促進するディープニューラルネットワーク(DNN)の新たなトレーニング手法を提案する。
我々は、新しい入力の予測を提供するために、以前のバージョンのモデルを用いて、ディープコンパニオンモデル(DCM)を訓練する。
このコンパニオンモデルは、データ内の有意義な潜在意味構造を解読し、ターゲットの監視を提供する。
論文 参考訳(メタデータ) (2024-07-26T15:31:13Z) - Robustness of Speech Separation Models for Similar-pitch Speakers [14.941946672578863]
単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。
本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
論文 参考訳(メタデータ) (2024-07-22T15:55:08Z) - Incomplete Utterance Rewriting as Sequential Greedy Tagging [0.0]
モデル話者変動に対する話者認識埋め込みを導入する。
本モデルでは,従来の最先端モデルに匹敵する他のスコアを持つとともに,9つの復元スコアに対して最適な結果が得られる。
論文 参考訳(メタデータ) (2023-07-08T04:05:04Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。
カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。
これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文 参考訳(メタデータ) (2021-12-01T19:01:26Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Variational Capsule Encoder [6.244396213953519]
我々はベイジアンカプセル(B-Caps)と呼ばれる新しいカプセルネットワークに基づく変分エンコーダアーキテクチャを提案する。
このアプローチは、従来のアプローチよりも潜在領域における機能のより優れた表現を学習できる、という仮説を立てた。
この結果から,VAE設定下では検討されていない表現学習におけるカプセルネットワークの強みが示唆された。
論文 参考訳(メタデータ) (2020-10-18T20:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。