論文の概要: Curricular SincNet: Towards Robust Deep Speaker Recognition by
Emphasizing Hard Samples in Latent Space
- arxiv url: http://arxiv.org/abs/2108.10714v1
- Date: Sat, 21 Aug 2021 09:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 14:05:55.872812
- Title: Curricular SincNet: Towards Robust Deep Speaker Recognition by
Emphasizing Hard Samples in Latent Space
- Title(参考訳): Curricular SincNet:潜時空間におけるハードサンプル強調によるロバストディープ話者認識に向けて
- Authors: Labib Chowdhury, Mustafa Kamal, Najia Hasan and Nabeel Mohammed
- Abstract要約: Curricular SincNet (CL-SincNet) は改良された SincNet モデルである。
提案手法は,複数のデータセットに対して,データセット内およびデータセット間評価プロトコルを用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning models have become an increasingly preferred option for
biometric recognition systems, such as speaker recognition. SincNet, a deep
neural network architecture, gained popularity in speaker recognition tasks due
to its parameterized sinc functions that allow it to work directly on the
speech signal. The original SincNet architecture uses the softmax loss, which
may not be the most suitable choice for recognition-based tasks. Such loss
functions do not impose inter-class margins nor differentiate between easy and
hard training samples. Curriculum learning, particularly those leveraging
angular margin-based losses, has proven very successful in other biometric
applications such as face recognition. The advantage of such a curriculum
learning-based techniques is that it will impose inter-class margins as well as
taking to account easy and hard samples. In this paper, we propose Curricular
SincNet (CL-SincNet), an improved SincNet model where we use a curricular loss
function to train the SincNet architecture. The proposed model is evaluated on
multiple datasets using intra-dataset and inter-dataset evaluation protocols.
In both settings, the model performs competitively with other previously
published work. In the case of inter-dataset testing, it achieves the best
overall results with a reduction of 4\% error rate compare to SincNet and other
published work.
- Abstract(参考訳): ディープラーニングモデルは、話者認識などの生体認証システムにおいて、ますます好まれる選択肢となっている。
ディープニューラルネットワークアーキテクチャであるSincNetは、音声信号を直接処理できるパラメータ化されたシンク関数のために、話者認識タスクで人気を博した。
オリジナルのsincnetアーキテクチャはsoftmaxロスを使っているが、認識ベースのタスクには最適ではないかもしれない。
このような損失関数はクラス間マージンを課したり、簡単なトレーニングサンプルと難しいトレーニングサンプルを区別したりしない。
カリキュラム学習、特に角マージンに基づく損失を利用した学習は、顔認識などの他の生体計測応用において非常に成功した。
このようなカリキュラム学習に基づくテクニックの利点は、クラス間マージンを課すだけでなく、簡単でハードなサンプルを考慮に入れることだ。
本稿では,sincnetアーキテクチャを学習するためにsincnetモデルの改良版であるcurricular sincnet (cl-sincnet)を提案する。
提案モデルは,データセット内およびデータセット間評価プロトコルを用いて,複数のデータセット上で評価される。
どちらの設定でも、モデルは以前に公開された他の作業と競合する。
データセット間テストの場合、SincNetや他の公開作業と比較すると、エラー率を4倍に減らして、全体的な結果が最も良い。
関連論文リスト
- Depth Estimation using Weighted-loss and Transfer Learning [2.428301619698667]
転送学習と最適化された損失関数を用いた深度推定精度の向上のための簡易かつ適応的なアプローチを提案する。
本研究では,移動学習と最適損失関数を用いた深度推定精度向上のための簡易かつ適応的な手法を提案する。
EfficientNetが最も成功したアーキテクチャである。
論文 参考訳(メタデータ) (2024-04-11T12:25:54Z) - Synergistic Network Learning and Label Correction for Noise-robust Image
Classification [28.27739181560233]
ディープニューラルネットワーク(DNN)は、トレーニングラベルノイズに過度に適合する傾向があるため、実際のモデルパフォーマンスは低下する。
損失選択と雑音補正のアイデアを組み合わせたロバストなラベル補正フレームワークを提案する。
ノイズタイプやレートの異なる合成および実世界のデータセット上で,本手法を実証する。
論文 参考訳(メタデータ) (2022-02-27T23:06:31Z) - Learning to Rectify for Robust Learning with Noisy Labels [25.149277009932423]
分類ネットワークのトレーニング手順を適応的に修正するためのワープ確率推論(WarPI)を提案する。
雑音ラベルによる頑健な学習の4つのベンチマークでWarPIを評価し, 異種雑音下での新たな最先端の学習を実現する。
論文 参考訳(メタデータ) (2021-11-08T02:25:50Z) - Analytically Tractable Inference in Deep Neural Networks [0.0]
Tractable Approximate Inference (TAGI)アルゴリズムは、浅いフルコネクテッドニューラルネットワークのバックプロパゲーションに対する実行可能でスケーラブルな代替手段であることが示された。
従来のディープニューラルネットワークアーキテクチャをトレーニングするために、TAGIがバックプロパゲーションのパフォーマンスとどのように一致するか、または上回るかを実証しています。
論文 参考訳(メタデータ) (2021-03-09T14:51:34Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - ReMarNet: Conjoint Relation and Margin Learning for Small-Sample Image
Classification [49.87503122462432]
ReMarNet(Relation-and-Margin Learning Network)と呼ばれるニューラルネットワークを導入する。
本手法は,上記2つの分類機構の双方において優れた性能を発揮する特徴を学習するために,異なるバックボーンの2つのネットワークを組み立てる。
4つの画像データセットを用いた実験により,本手法はラベル付きサンプルの小さな集合から識別的特徴を学習するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-06-27T13:50:20Z) - ResNeSt: Split-Attention Networks [86.25490825631763]
このアーキテクチャは、異なるネットワークブランチにチャンネルワイズを応用し、機能間相互作用のキャプチャと多様な表現の学習の成功を活用する。
我々のモデルはResNeStと呼ばれ、画像分類の精度と遅延トレードオフにおいてEfficientNetより優れています。
論文 参考訳(メタデータ) (2020-04-19T20:40:31Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。