論文の概要: Learning Repeatable Speech Embeddings Using An Intra-class Correlation
Regularizer
- arxiv url: http://arxiv.org/abs/2310.17049v1
- Date: Wed, 25 Oct 2023 23:21:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:54:41.626776
- Title: Learning Repeatable Speech Embeddings Using An Intra-class Correlation
Regularizer
- Title(参考訳): クラス内相関正規化器を用いた繰り返し音声埋め込みの学習
- Authors: Jianwei Zhang, Suren Jayasuriya, Visar Berisha
- Abstract要約: クラス内相関係数(ICC)を用いて埋め込みの再現性を評価する。
我々は、より高い繰り返し性を持つ埋め込みを生成するために、ディープニューラルネットワークを誘導する対照的な損失を補うために、新しい正則化器であるICC正則化器を提案する。
我々は、ICC正規化器を実装し、話者検証、音声スタイル変換、およびディフォニック音声検出のための臨床応用の3つの音声タスクに適用する。
- 参考スコア(独自算出の注目度): 16.716653844774374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A good supervised embedding for a specific machine learning task is only
sensitive to changes in the label of interest and is invariant to other
confounding factors. We leverage the concept of repeatability from measurement
theory to describe this property and propose to use the intra-class correlation
coefficient (ICC) to evaluate the repeatability of embeddings. We then propose
a novel regularizer, the ICC regularizer, as a complementary component for
contrastive losses to guide deep neural networks to produce embeddings with
higher repeatability. We use simulated data to explain why the ICC regularizer
works better on minimizing the intra-class variance than the contrastive loss
alone. We implement the ICC regularizer and apply it to three speech tasks:
speaker verification, voice style conversion, and a clinical application for
detecting dysphonic voice. The experimental results demonstrate that adding an
ICC regularizer can improve the repeatability of learned embeddings compared to
only using the contrastive loss; further, these embeddings lead to improved
performance in these downstream tasks.
- Abstract(参考訳): 特定の機械学習タスクに対する優れた教師付き埋め込みは、関心のラベルの変化にのみ敏感であり、他の要因に不変である。
我々は, 測定理論の再現性の概念を利用して, この特性を記述し, 組込みの再現性を評価するために, クラス内相関係数(ICC)を提案する。
そこで我々は,深いニューラルネットワークを誘導し,再現性の高い埋め込みを生成するために,コントラスト損失を補完する新しい正則化器であるICC正則化器を提案する。
シミュレーションデータを用いて,icc正則化器がクラス内分散の最小化に有効な理由を,コントラスト損失のみよりも説明する。
我々は、ICC正規化器を実装し、話者検証、音声スタイル変換、ディフォニック音声検出のための臨床応用の3つの音声タスクに適用する。
実験結果から, ICC正則化器の追加は, 対照的な損失のみを用いて学習した埋め込みの再現性を向上すること, さらに, 下流タスクの性能向上につながることが示された。
関連論文リスト
- Multi-Granularity Semantic Revision for Large Language Model Distillation [66.03746866578274]
LLM蒸留における多粒性セマンティックリビジョン法を提案する。
シーケンスレベルでは、シーケンス修正と再生戦略を提案する。
トークンレベルでは、蒸留目的関数として、Kulback-Leibler損失を補正する分布適応クリッピングを設計する。
スパンレベルでは、シーケンスのスパン前処理を利用して、スパン内の確率相関を計算し、教師と学生の確率相関を一貫性に制約する。
論文 参考訳(メタデータ) (2024-07-14T03:51:49Z) - On the Condition Monitoring of Bolted Joints through Acoustic Emission and Deep Transfer Learning: Generalization, Ordinal Loss and Super-Convergence [0.12289361708127876]
本稿では, 畳み込みニューラルネットワーク(CNN)を用いた深部伝達学習を用いて, 音響放射を用いたボルト付き関節のモニタリングを行う。
3本のボルトで接続された2本の細いビームからなる構造であるORION-AEベンチマークを用いて,本手法の性能評価を行った。
論文 参考訳(メタデータ) (2024-05-29T13:07:21Z) - Coordinated Sparse Recovery of Label Noise [2.9495895055806804]
本研究は、ラベルノイズがインスタンス依存であるロバストな分類タスクに焦点を当てる。
協調スパース回収法(CSR)を提案する。
CSRは、モデル予測とノイズ回復を調整するために、協調行列と信頼重みを導入し、エラーリークを低減する。
CSRに基づいて,共同サンプル選択戦略を設計し,CSR+と呼ばれる包括的で強力な学習フレームワークを構築した。
論文 参考訳(メタデータ) (2024-04-07T03:41:45Z) - Fixed Random Classifier Rearrangement for Continual Learning [0.5439020425819]
視覚分類のシナリオでは、ニューラルネットワークは新しいタスクを学習した後、必然的に古いタスクの知識を忘れる。
我々はFixed Random Rearrangement (FRCR)という連続学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T09:43:58Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。
DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文 参考訳(メタデータ) (2023-11-24T10:14:05Z) - Dynamic Residual Classifier for Class Incremental Learning [4.02487511510606]
古いクラスと新しいクラスの間に不均衡なサンプル番号があれば、学習はバイアスを受けることができる。
既存のCIL手法は、例えば、調整された損失やデータ再サンプリング手法など、Longtailed (LT) 認識技術を利用する。
この挑戦的なシナリオに対処するために、新しい動的残留適応(DRC)を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:07:11Z) - DELTA: Dynamic Embedding Learning with Truncated Conscious Attention for
CTR Prediction [61.68415731896613]
CTR(Click-Through Rate)予測は、製品とコンテンツの推奨において重要なタスクである。
本稿では,CTR予測のための動的埋め込み学習を実現するモデルを提案する。
論文 参考訳(メタデータ) (2023-05-03T12:34:45Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。