論文の概要: Dr-Vectors: Decision Residual Networks and an Improved Loss for Speaker
Recognition
- arxiv url: http://arxiv.org/abs/2104.01989v1
- Date: Mon, 5 Apr 2021 16:31:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:53:10.823296
- Title: Dr-Vectors: Decision Residual Networks and an Improved Loss for Speaker
Recognition
- Title(参考訳): dr-vectors: 決定残差ネットワークと話者認識における損失改善
- Authors: Jason Pelecanos and Quan Wang and Ignacio Lopez Moreno
- Abstract要約: 不確実性、登録/テスト非対称性、追加非線形情報を取得できるスコアリング表現を提案します。
これは、エンドツーエンドのトレーニングレジメンの一部として2段目のニューラルネットワークを組み込むことによって実現される。
- 参考スコア(独自算出の注目度): 10.521895311220105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many neural network speaker recognition systems model each speaker using a
fixed-dimensional embedding vector. These embeddings are generally compared
using either linear or 2nd-order scoring and, until recently, do not handle
utterance-specific uncertainty. In this work we propose scoring these
representations in a way that can capture uncertainty, enroll/test asymmetry
and additional non-linear information. This is achieved by incorporating a
2nd-stage neural network (known as a decision network) as part of an end-to-end
training regimen. In particular, we propose the concept of decision residual
networks which involves the use of a compact decision network to leverage
cosine scores and to model the residual signal that's needed. Additionally, we
present a modification to the generalized end-to-end softmax loss function to
better target the separation of same/different speaker scores. We observed
significant performance gains for the two techniques.
- Abstract(参考訳): 多くのニューラルネットワーク話者認識システムは、固定次元埋め込みベクトルを用いて各話者をモデル化する。
これらの埋め込みは一般に線形または2次スコアで比較され、最近まで発話固有の不確実性は扱っていない。
本研究では,不確実性を捕捉し,非対称性を付与/テストし,非線形情報を追加する手法を提案する。
これは、エンドツーエンドのトレーニングレジームの一部として、第2段階のニューラルネットワーク(決定ネットワークとして知られる)を組み込むことによって実現される。
特に,コサインスコアを活用し,必要な残差信号のモデル化にコンパクトな決定ネットワークを用いた決定残差ネットワークの概念を提案する。
さらに,同じ/異なる話者スコアの分離をより適切にターゲットとして,一般化されたエンドツーエンドのソフトマックス損失関数を改良する。
両手法で有意な性能向上を示した。
関連論文リスト
- Semantic Strengthening of Neuro-Symbolic Learning [85.6195120593625]
ニューロシンボリックアプローチは一般に確率論的目的のファジィ近似を利用する。
トラクタブル回路において,これを効率的に計算する方法を示す。
我々は,Warcraftにおける最小コストパスの予測,最小コスト完全マッチングの予測,スドクパズルの解法という3つの課題に対して,アプローチを検証した。
論文 参考訳(メタデータ) (2023-02-28T00:04:22Z) - R(Det)^2: Randomized Decision Routing for Object Detection [64.48369663018376]
本稿では,決定木とディープニューラルネットワークをエンドツーエンドの学習方法で組み合わせたオブジェクト検出手法を提案する。
効率的な学習を容易にするために,ノード選択型および連想型損失を伴うランダム化決定経路を提案する。
このアプローチをオブジェクト検出のためのランダム化決定ルーティングとして、R(Det)$2$と略す。
論文 参考訳(メタデータ) (2022-04-02T07:54:58Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Robust Neural Regression via Uncertainty Learning [5.654198773446211]
ディープニューラルネットワークは不確実性を過小評価し、過度に自信を持って予測する傾向がある。
一般化線形回帰法において、時間的反復重み付き最小二乗(IRLS)を拡張して簡単な解を提案する。
我々は2つのサブネットワークを用いて予測と不確実性推定をパラメトリズし、複雑な入力と非線形応答を容易に扱えるようにした。
論文 参考訳(メタデータ) (2021-10-12T23:19:13Z) - Deep Neural Networks and End-to-End Learning for Audio Compression [2.084078990567849]
本稿では,変分オートエンコーダ(VAE)のトレーニング戦略において,リカレントニューラルネットワーク(RNN)と潜時空間のバイナリ表現を組み合わせたエンドツーエンドのディープラーニング手法を提案する。
RNNを用いた1つの音声圧縮モデルのエンドツーエンド学習としてはこれが初めてであり、我々のモデルは20.54のSDR(Signal to Distortion Ratio)を達成する。
論文 参考訳(メタデータ) (2021-05-25T05:36:30Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Blind Speech Separation and Dereverberation using Neural Beamforming [28.7807578839021]
本稿では,Blind Speech Separation and Dereverberation (BSSD) ネットワークについて述べる。
話者分離は、予め定義された空間的手がかりのセットによって導かれる。
残響は神経ビームフォーミングを用いて行われ、話者識別は埋め込みベクトルと三重項マイニングによって支援される。
論文 参考訳(メタデータ) (2021-03-24T18:43:52Z) - Finding hidden-feature depending laws inside a data set and classifying
it using Neural Network [0.0]
ニューラルネットワークのlogcosh損失関数は、異常値の重み付けを行わない絶対誤差損失関数の利点と、平均付近における連続微分の平均二乗誤差の利点を組み合わせるために開発された。
本研究は,logcosh損失を持つ人工ニューラルネットワークを用いてパラメータ-アウトカムサンプルセットのセット値マッピングの分岐を探索し,それらの分岐に従ってサンプルを分類する手法を提案する。
論文 参考訳(メタデータ) (2021-01-25T21:37:37Z) - Binary Neural Networks: A Survey [126.67799882857656]
バイナリニューラルネットワークは、リソース制限されたデバイスにディープモデルをデプロイするための有望なテクニックとして機能する。
バイナライゼーションは必然的に深刻な情報損失を引き起こし、さらに悪いことに、その不連続性はディープネットワークの最適化に困難をもたらす。
本稿では,2項化を直接実施するネイティブソリューションと,量子化誤差の最小化,ネットワーク損失関数の改善,勾配誤差の低減といった手法を用いて,これらのアルゴリズムを探索する。
論文 参考訳(メタデータ) (2020-03-31T16:47:20Z) - Beyond Dropout: Feature Map Distortion to Regularize Deep Neural
Networks [107.77595511218429]
本稿では,ディープニューラルネットワークの中間層に関連する実験的なRademacher複雑性について検討する。
上記の問題に対処するための特徴歪み法(Disout)を提案する。
より高い試験性能を有するディープニューラルネットワークを作製するための特徴写像歪みの優位性を解析し、実証した。
論文 参考訳(メタデータ) (2020-02-23T13:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。