論文の概要: Learning Speaker Representation with Semi-supervised Learning approach
for Speaker Profiling
- arxiv url: http://arxiv.org/abs/2110.13653v1
- Date: Sun, 24 Oct 2021 20:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 16:31:20.686074
- Title: Learning Speaker Representation with Semi-supervised Learning approach
for Speaker Profiling
- Title(参考訳): 話者プロファイリングのための半教師付き学習アプローチによる話者表現
- Authors: Shangeth Rajaa, Pham Van Tung and Chng Eng Siong
- Abstract要約: 本稿では、話者プロファイリングのための低トレーニングデータの問題を軽減するための半教師付き学習手法を提案する。
これは、より良い表現をトレーニングするために、外部コーパスと話者情報を活用することで実現される。
提案手法には,(1)話者情報の収集を支援する教師なし話者表現学習経路,(2)システムの堅牢性向上を支援する一貫性学習経路の2つの経路がある。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker profiling, which aims to estimate speaker characteristics such as age
and height, has a wide range of applications inforensics, recommendation
systems, etc. In this work, we propose a semisupervised learning approach to
mitigate the issue of low training data for speaker profiling. This is done by
utilizing external corpus with speaker information to train a better
representation which can help to improve the speaker profiling systems.
Specifically, besides the standard supervised learning path, the proposed
framework has two more paths: (1) an unsupervised speaker representation
learning path that helps to capture the speaker information; (2) a consistency
training path that helps to improve the robustness of the system by enforcing
it to produce similar predictions for utterances of the same speaker.The
proposed approach is evaluated on the TIMIT and NISP datasets for age, height,
and gender estimation, while the Librispeech is used as the unsupervised
external corpus. Trained both on single-task and multi-task settings, our
approach was able to achieve state-of-the-art results on age estimation on the
TIMIT Test dataset with Root Mean Square Error(RMSE) of6.8 and 7.4 years and
Mean Absolute Error(MAE) of 4.8 and5.0 years for male and female speakers
respectively.
- Abstract(参考訳): 話者プロファイリングは、年齢や身長などの話者特性を推定することを目的としており、予測システムやレコメンデーションシステムなど、幅広い応用がある。
本研究では,話者プロファイリングのための低訓練データの問題を軽減するための半教師付き学習手法を提案する。
これは、話者情報を用いた外部コーパスを使用して、話者プロファイリングシステムの改善に役立つより良い表現を訓練する。
Specifically, besides the standard supervised learning path, the proposed framework has two more paths: (1) an unsupervised speaker representation learning path that helps to capture the speaker information; (2) a consistency training path that helps to improve the robustness of the system by enforcing it to produce similar predictions for utterances of the same speaker.The proposed approach is evaluated on the TIMIT and NISP datasets for age, height, and gender estimation, while the Librispeech is used as the unsupervised external corpus.
単一タスクとマルチタスクの両方でトレーニングを行った結果,男性の6.8歳と7.4歳のRoot Mean Square Error(RMSE)と,女性話者の4.8歳と5.0歳のMean Absolute Error(MAE)を用いて,TIMIT Testデータセットの年齢推定の最先端結果が得られた。
関連論文リスト
- Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Generation of Speaker Representations Using Heterogeneous Training Batch
Assembly [16.534380339042087]
本稿では,CNNに基づく話者モデリング手法を提案する。
トレーニングデータを一組のセグメントにランダムに合成的に拡張する。
各セグメントには、その話者占有率に基づいてソフトラベルが課される。
論文 参考訳(メタデータ) (2022-03-30T19:59:05Z) - Bootstrap Equilibrium and Probabilistic Speaker Representation Learning
for Self-supervised Speaker Verification [15.652180150706002]
本稿では,自己教師型話者表現学習戦略を提案する。
フロントエンドでは,一様正規化項を用いたブートストラップ学習方式を用いて話者表現を学習する。
バックエンドでは、同一話者に属する音声サンプル間の相互確率スコアを最大化することにより、確率的話者埋め込みを推定する。
論文 参考訳(メタデータ) (2021-12-16T14:55:44Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Leveraging speaker attribute information using multi task learning for
speaker verification and diarization [33.60058873783114]
対象アプリケーションに不適合な音声コーパスに対してのみ利用できる場合であっても,補助ラベル情報を利用するためのフレームワークを提案する。
本研究では,2種類の話者属性情報を活用することで,検証作業とダイアリゼーション作業の両方において,深層話者埋め込みの性能を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-27T13:10:51Z) - Improving on-device speaker verification using federated learning with
privacy [5.321241042620525]
話者特性に関する情報は、話者認識精度を向上させる側情報として有用である。
本稿では,プライバシ保護学習が話者認証システムをどのように改善するかを検討する。
論文 参考訳(メタデータ) (2020-08-06T13:37:14Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs [65.28795726837386]
不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
論文 参考訳(メタデータ) (2020-04-06T17:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。