論文の概要: Ordered and Binary Speaker Embedding
- arxiv url: http://arxiv.org/abs/2305.16043v1
- Date: Thu, 25 May 2023 13:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:58:20.845455
- Title: Ordered and Binary Speaker Embedding
- Title(参考訳): 順序付きおよびバイナリ話者埋め込み
- Authors: Jiaying Wang and Xianglong Wang and Namin Wang and Lantian Li and Dong
Wang
- Abstract要約: 本稿では,ネストしたドロップアウトにより埋め込みベクトルの次元をソートし,バーヌーイサンプリングによりソートされたベクトルをバイナリコードに変換する順序付きバイナリ埋め込み手法を提案する。
結果として順序付けられたバイナリコードには、階層的クラスタリング、メモリ使用量の削減、高速検索など、いくつかの重要なメリットがある。
- 参考スコア(独自算出の注目度): 12.22202088781098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern speaker recognition systems represent utterances by embedding vectors.
Conventional embedding vectors are dense and non-structural. In this paper, we
propose an ordered binary embedding approach that sorts the dimensions of the
embedding vector via a nested dropout and converts the sorted vectors to binary
codes via Bernoulli sampling. The resultant ordered binary codes offer some
important merits such as hierarchical clustering, reduced memory usage, and
fast retrieval. These merits were empirically verified by comprehensive
experiments on a speaker identification task with the VoxCeleb and CN-Celeb
datasets.
- Abstract(参考訳): 現代の話者認識システムはベクトルの埋め込みによる発話を表す。
従来の埋め込みベクトルは密度が高く非構造である。
本稿では,埋め込みベクトルの次元をネストしたドロップアウトでソートし,ベルヌーイサンプリングによりソートされたベクトルをバイナリコードに変換する順序付きバイナリ埋め込み手法を提案する。
結果として順序付けられたバイナリコードには、階層的クラスタリング、メモリ使用量の削減、高速検索など、いくつかの重要なメリットがある。
これらの利点は、VoxCelebとCN-Celebデータセットを用いた話者識別タスクに関する包括的な実験によって実証的に検証された。
関連論文リスト
- Sequence Shortening for Context-Aware Machine Translation [5.803309695504831]
マルチエンコーダアーキテクチャの特殊な場合において,コントラストデータセットの精度が向上することを示す。
遅延グループと遅延選択という2つの新しい手法を導入し、ネットワークはトークンをグループ化するか、コンテキストとしてキャッシュされるトークンを選択する。
論文 参考訳(メタデータ) (2024-02-02T13:55:37Z) - Emergence of Latent Binary Encoding in Deep Neural Network Classifiers [0.0]
ディープ・ニューラル・ネットワーク分類器の潜時空間におけるバイナリエンコーディングの出現について検討する。
複雑性が増大するいくつかのデータセットを解析することにより、バイナリエンコーディングの出現がロバスト性を大幅に向上させるという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2023-10-12T11:16:57Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Nearest neighbor search with compact codes: A decoder perspective [77.60612610421101]
バイナリハッシュや製品量化器などの一般的な手法を自動エンコーダとして再解釈する。
後方互換性のあるデコーダを設計し、同じ符号からベクトルの再構成を改善する。
論文 参考訳(メタデータ) (2021-12-17T15:22:28Z) - Sparse Coding with Multi-Layer Decoders using Variance Regularization [19.8572592390623]
本稿では,デコーダの正規化を必要とせずに,符号の崩壊を防止する新しいスパース符号化プロトコルを提案する。
本手法は,各潜時符号成分が一定の閾値を超える分散を有するように,直接正規化する。
分散正規化法を用いて訓練した多層デコーダを用いたスパースオートエンコーダは、スペーサー表現を用いた高品質な再構成を実現する。
論文 参考訳(メタデータ) (2021-12-16T21:46:23Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - byteSteady: Fast Classification Using Byte-Level n-Gram Embeddings [77.6701264226519]
byteSteadyは,バイトレベルのn-gram埋め込みを用いた高速な分類モデルである。
byteSteadyの簡単な応用はテキスト分類である。
byteSteadyは1種類の非言語データ -- DNA配列を遺伝子分類に適用する。
論文 参考訳(メタデータ) (2021-06-24T20:14:48Z) - Acoustic Neighbor Embeddings [2.842794675894731]
本稿では,アコースティック・ニーバー・エンベディングと呼ばれる新しい音響単語の埋め込みを提案する。
埋め込み空間における座標間のユークリッド距離は、対応する列間の音素的可聴性を反映する。
認識精度は従来の有限状態トランスデューサ(FST)ベースのデコードと同一であり、語彙で最大100万名、埋め込みで40次元の試験データを使用する。
論文 参考訳(メタデータ) (2020-07-20T05:33:07Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。