Fugu-MT 論文翻訳(概要): Siamese Capsule Network for End-to-End Speaker Recognition In The Wild

論文の概要: Siamese Capsule Network for End-to-End Speaker Recognition In The Wild

arxiv url: http://arxiv.org/abs/2009.13480v1
Date: Mon, 28 Sep 2020 17:11:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-13 22:42:04.625227
Title: Siamese Capsule Network for End-to-End Speaker Recognition In The Wild
Title（参考訳）: Siamese Capsule Network for End-to-End Speaker Recognition in the Wild
Authors: Amirhossein Hajavi, Ali Etemad
Abstract要約: 本研究では,野生における話者検証のためのエンド・ツー・エンドのディープモデルを提案する。提案モデルでは, 話者埋め込みを発話から抽出するThin-ResNetと, シームズカプセルネットワークを用いた。
参考スコア（独自算出の注目度）: 25.71206255965502
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We propose an end-to-end deep model for speaker verification in the wild. Our model uses thin-ResNet for extracting speaker embeddings from utterances and a Siamese capsule network and dynamic routing as the Back-end to calculate a similarity score between the embeddings. We conduct a series of experiments and comparisons on our model to state-of-the-art solutions, showing that our model outperforms all the other models using substantially less amount of training data. We also perform additional experiments to study the impact of different speaker embeddings on the Siamese capsule network. We show that the best performance is achieved by using embeddings obtained directly from the feature aggregation module of the Front-end and passing them to higher capsules using dynamic routing.
Abstract（参考訳）: 本研究では,野生における話者検証のためのエンドツーエンドのディープモデルを提案する。本モデルでは,音声から話者の埋め込みを抽出し,siameseカプセルネットワークと動的ルーティングをバックエンドとして利用し,類似度スコアを算出した。我々は,我々のモデルを最先端ソリューションと比較した一連の実験を行い,トレーニングデータ量を大幅に削減することで,モデルが他のすべてのモデルを上回ることを示した。また、シームズカプセルネットワークにおける異なる話者埋め込みの影響を研究するための追加実験を行った。本稿では,フロントエンドの機能集約モジュールから直接取得した埋め込みを動的ルーティングを用いて高カプセルに渡すことで,最高の性能を実現することを示す。

関連論文リスト

Parametric Neural Amp Modeling with Active Learning [38.40457780873775]
MUSHRAリスニングテストにより,75個のデータポイントを使用すれば,主要なオープンソース非パラメトリックアンプモデルであるNAMの知覚的品質と一致させることができることが明らかになった。
論文参考訳（メタデータ） (2025-09-30T17:30:00Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Applying Deep Neural Networks to automate visual verification of manual bracket installations in aerospace [0.6562256987706128]
本稿では,Siamese Neural Networkアーキテクチャに基づくディープラーニングに基づく自動視覚検査と検証アルゴリズムについて検討する。我々は,複数の参照画像に対して単一のモデル投票を行うシームズニューラルネットワークに特有な新しい投票方式を開発した。
論文参考訳（メタデータ） (2024-08-15T11:58:48Z)
Deep Companion Learning: Enhancing Generalization Through Historical Consistency [35.5237083057451]
本稿では,不整合モデル予測をペナライズすることによって一般化を促進するディープニューラルネットワーク(DNN)の新たなトレーニング手法を提案する。我々は、新しい入力の予測を提供するために、以前のバージョンのモデルを用いて、ディープコンパニオンモデル(DCM)を訓練する。このコンパニオンモデルは、データ内の有意義な潜在意味構造を解読し、ターゲットの監視を提供する。
論文参考訳（メタデータ） (2024-07-26T15:31:13Z)
Robustness of Speech Separation Models for Similar-pitch Speakers [14.941946672578863]
単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
論文参考訳（メタデータ） (2024-07-22T15:55:08Z)
Masked Capsule Autoencoders [5.363623643280699]
我々は,近代的な自己管理パラダイムで事前学習を利用する最初のカプセルネットワークであるMasked Capsule Autoencoders (MCAE)を提案する。提案するMCAEモデルでは,プリトレーニングステージとしてマスク画像モデリングを使用するようにカプセルネットワークを再構成することにより,この問題を緩和する。我々は、CNNやViTと同様、Capsule Networksも自己教師付き事前トレーニングの恩恵を受けることができることを示した。
論文参考訳（メタデータ） (2024-03-07T18:22:03Z)
Incomplete Utterance Rewriting as Sequential Greedy Tagging [0.0]
モデル話者変動に対する話者認識埋め込みを導入する。本モデルでは,従来の最先端モデルに匹敵する他のスコアを持つとともに,9つの復元スコアに対して最適な結果が得られる。
論文参考訳（メタデータ） (2023-07-08T04:05:04Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Routing with Self-Attention for Multimodal Capsule Networks [108.85007719132618]
我々は,カプセルの強度をマルチモーダル学習フレームワークの文脈で活用できる,新しいマルチモーダルカプセルネットワークを提案する。カプセルを大規模入力データに適応させるために, カプセルを選択する自己保持機構による新たなルーティングを提案する。これにより、ノイズの多いビデオデータによる堅牢なトレーニングだけでなく、従来のルーティング方法と比較してカプセルネットワークのサイズを拡大することが可能になる。
論文参考訳（メタデータ） (2021-12-01T19:01:26Z)
Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-02T07:50:50Z)
End-to-End Diarization for Variable Number of Speakers with Local-Global Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文参考訳（メタデータ） (2021-05-05T14:55:29Z)
Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文参考訳（メタデータ） (2020-12-13T23:23:39Z)
Variational Capsule Encoder [6.244396213953519]
我々はベイジアンカプセル(B-Caps)と呼ばれる新しいカプセルネットワークに基づく変分エンコーダアーキテクチャを提案する。このアプローチは、従来のアプローチよりも潜在領域における機能のより優れた表現を学習できる、という仮説を立てた。この結果から,VAE設定下では検討されていない表現学習におけるカプセルネットワークの強みが示唆された。
論文参考訳（メタデータ） (2020-10-18T20:52:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。