論文の概要: Speaker embeddings by modeling channel-wise correlations
- arxiv url: http://arxiv.org/abs/2104.02571v1
- Date: Tue, 6 Apr 2021 15:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 16:51:28.461392
- Title: Speaker embeddings by modeling channel-wise correlations
- Title(参考訳): チャネル間相関のモデル化による話者埋め込み
- Authors: Themos Stafylakis, Johan Rohdin, Lukas Burget
- Abstract要約: 任意の周波数のチャネル間のペアワイズ相関を統計として用いる,別のプール方式を提案する。
この手法はコンピュータビジョンにおけるスタイル・トランスファー法にインスパイアされ、チャネル関係の行列でモデル化された画像のスタイルが別の画像に転送される。
画像スタイルと話者特性,および画像内容と音素シーケンスの類似を描画することにより,ResNetアーキテクチャを訓練するためのチャネルワイズ相関機能の利用について検討する。
- 参考スコア(独自算出の注目度): 16.263418635038747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker embeddings extracted with deep 2D convolutional neural networks are
typically modeled as projections of first and second order statistics of
channel-frequency pairs onto a linear layer, using either average or attentive
pooling along the time axis. In this paper we examine an alternative pooling
method, where pairwise correlations between channels for given frequencies are
used as statistics. The method is inspired by style-transfer methods in
computer vision, where the style of an image, modeled by the matrix of
channel-wise correlations, is transferred to another image, in order to produce
a new image having the style of the first and the content of the second. By
drawing analogies between image style and speaker characteristics, and between
image content and phonetic sequence, we explore the use of such channel-wise
correlations features to train a ResNet architecture in an end-to-end fashion.
Our experiments on VoxCeleb demonstrate the effectiveness of the proposed
pooling method in speaker recognition.
- Abstract(参考訳): ディープ2次元畳み込みニューラルネットワークで抽出された話者埋め込みは、時間軸に沿った平均または減衰プーリングを用いて、チャネル周波数対の1次および2次統計の線形層への投影としてモデル化される。
本稿では,与えられた周波数のチャネル間の対相関を統計として用いる別のプーリング手法について検討する。
本手法はコンピュータビジョンにおけるスタイル転送方式に着想を得て,チャネル関係の行列でモデル化された画像のスタイルを別の画像に転送することで,第1のスタイルと第2のコンテンツとを新たに生成する。
画像スタイルと話者特性, 画像内容と音素シーケンスの類似を描画することにより, ResNetアーキテクチャをエンドツーエンドで訓練するためのチャネルワイズ相関機能の利用について検討する。
voxcelebの実験により,提案法が話者認識に有効であることを示す。
関連論文リスト
- Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation [60.27691946892796]
本稿では,一対の入力キーフレーム間のコヒーレントな動きで映像列を生成する手法を提案する。
実験の結果,本手法は既存の拡散法と従来のフレーム技術の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-08-27T17:57:14Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Decoupled Mixup for Generalized Visual Recognition [71.13734761715472]
視覚認識のためのCNNモデルを学習するための新しい「デカップリング・ミクスアップ」手法を提案する。
本手法は,各画像を識別領域と雑音発生領域に分離し,これらの領域を均一に組み合わせてCNNモデルを訓練する。
実験結果から,未知のコンテキストからなるデータに対する本手法の高一般化性能を示す。
論文 参考訳(メタデータ) (2022-10-26T15:21:39Z) - Action Recognition with Domain Invariant Features of Skeleton Image [25.519217340328442]
そこで本研究では,行動認識のための対人訓練のための新しいCNNベースの手法を提案する。
異なる視角や対象からスケルトン画像の特徴を整列させるために,2段階のドメイン対角学習を導入する。
最先端の手法と比較して、競争力のある結果が得られる。
論文 参考訳(メタデータ) (2021-11-19T08:05:54Z) - Attention-based Neural Beamforming Layers for Multi-channel Speech
Recognition [17.009051842682677]
畳み込みニューラルネットワークとビームフォーミングに注目した2D Conv-Attentionモジュールを提案する。
入力チャネル間の相関関係を明確にモデル化するために、自己およびクロスアテンションを適用します。
その結果,ベースラインニューラルビームフォーマに対する提案モデルによるwerの3.8%の相対的改善が認められた。
論文 参考訳(メタデータ) (2021-05-12T19:32:24Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - End-to-End Lip Synchronisation Based on Pattern Classification [15.851638021923875]
本稿では,音声ストリームと対応するビデオストリームのオフセットを直接予測できるエンドツーエンドトレーニングネットワークを提案する。
提案手法は, LRS2 と LRS3 のデータセットにおいて, 先行研究よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T11:42:32Z) - Channel Interaction Networks for Fine-Grained Image Categorization [61.095320862647476]
微妙なクラス間差のため、きめ細かい画像分類は困難である。
本稿では,チャネル・インタラクション・ネットワーク(CIN)を提案する。
我々のモデルは、多段階のトレーニングやテストを必要とせずに、エンドツーエンドで効率的にトレーニングすることができる。
論文 参考訳(メタデータ) (2020-03-11T11:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。