論文の概要: On Training Targets and Activation Functions for Deep Representation
Learning in Text-Dependent Speaker Verification
- arxiv url: http://arxiv.org/abs/2201.06426v1
- Date: Mon, 17 Jan 2022 14:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 18:56:33.822258
- Title: On Training Targets and Activation Functions for Deep Representation
Learning in Text-Dependent Speaker Verification
- Title(参考訳): テキスト依存話者照合における深部表現学習の学習目標とアクティベーション関数について
- Authors: Achintya kr. Sarkar, Zheng-Hua Tan
- Abstract要約: 主な考慮事項は、トレーニングターゲット、アクティベーション関数、損失関数である。
本研究では,話者識別を訓練対象とする場合の損失関数の範囲について検討する。
GELUはSigmoidと比較してTD-SVの誤差率を大幅に低減できることを示した。
- 参考スコア(独自算出の注目度): 18.19207291891767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep representation learning has gained significant momentum in advancing
text-dependent speaker verification (TD-SV) systems. When designing deep neural
networks (DNN) for extracting bottleneck features, key considerations include
training targets, activation functions, and loss functions. In this paper, we
systematically study the impact of these choices on the performance of TD-SV.
For training targets, we consider speaker identity, time-contrastive learning
(TCL) and auto-regressive prediction coding with the first being supervised and
the last two being self-supervised. Furthermore, we study a range of loss
functions when speaker identity is used as the training target. With regard to
activation functions, we study the widely used sigmoid function, rectified
linear unit (ReLU), and Gaussian error linear unit (GELU). We experimentally
show that GELU is able to reduce the error rates of TD-SV significantly
compared to sigmoid, irrespective of training target. Among the three training
targets, TCL performs the best. Among the various loss functions, cross
entropy, joint-softmax and focal loss functions outperform the others. Finally,
score-level fusion of different systems is also able to reduce the error rates.
Experiments are conducted on the RedDots 2016 challenge database for TD-SV
using short utterances. For the speaker classifications, the well-known
Gaussian mixture model-universal background model (GMM-UBM) and i-vector
techniques are used.
- Abstract(参考訳): 深層表現学習は,テキスト依存型話者検証(TD-SV)システムの発展に大きく寄与している。
ボトルネック機能を抽出するためにディープニューラルネットワーク(dnn)を設計する際には、トレーニングターゲット、アクティベーション関数、損失関数などが考慮される。
本稿では,これらの選択がTD-SVの性能に与える影響を系統的に研究する。
訓練対象として、話者識別、時間コントラスト学習(TCL)、自己回帰予測コーディングを、まずは教師付き、2つは自己教師付きで検討する。
さらに,学習対象として話者識別を用いた場合の損失関数について検討した。
活性化関数については,広く用いられているシグモイド関数,補正線形単位(ReLU),ガウス誤差線形単位(GELU)について検討した。
GELUは,訓練対象に関係なく,Sigmoidと比較してTD-SVの誤差率を大幅に低減できることを示した。
3つの訓練目標のうち、tclが最善を尽くす。
様々な損失関数のうち、クロスエントロピー、ジョイントソフトマックス、焦点損失関数は他よりも優れている。
最後に、異なるシステムのスコアレベルの融合は、エラー率を減らすこともできる。
reddots 2016 challenge database for td-svで短い発話を用いて実験を行った。
話者分類には、よく知られたガウス混合モデル-普遍背景モデル(gmm-ubm)とi-vector法が用いられる。
関連論文リスト
- Automatic debiasing of neural networks via moment-constrained learning [0.0]
偏差推定器の回帰関数をネーティブに学習し,対象関数のサンプル平均値を取得する。
本稿では,自動脱バイアスの欠点に対処する新しいRR学習手法として,モーメント制約学習を提案する。
論文 参考訳(メタデータ) (2024-09-29T20:56:54Z) - Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - Disposable Transfer Learning for Selective Source Task Unlearning [31.020636963762836]
転送学習は、強力な表現を構築するためのディープニューラルネットワーク(DNN)のトレーニングに広く使用されている。
Disposable Transfer Learning (DTL)は、ターゲットタスクのパフォーマンスを低下させることなく、ソースタスクのみを処分する。
我々は,GC損失がDTL問題に対する効果的なアプローチであることを示し,GC損失をトレーニングしたモデルが,PL精度を著しく低減した目標タスクの性能を維持することを示した。
論文 参考訳(メタデータ) (2023-08-19T10:13:17Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。