論文の概要: Leveraging Speaker Embeddings with Adversarial Multi-task Learning for
Age Group Classification
- arxiv url: http://arxiv.org/abs/2301.09058v1
- Date: Sun, 22 Jan 2023 05:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:03:57.871801
- Title: Leveraging Speaker Embeddings with Adversarial Multi-task Learning for
Age Group Classification
- Title(参考訳): 年齢集団分類のための逆マルチタスク学習による話者埋め込みの活用
- Authors: Kwangje Baeg, Yeong-Gwan Kim, Young-Sub Han, Byoung-Ki Jeon
- Abstract要約: 本研究では, 対人多タスク学習から派生した話者識別型埋め込みを用いて, 年齢層における特徴の整合とドメイン差の低減を図る。
VoxCeleb Enrichment データセットの実験結果から,多目的シナリオにおける適応型対向ネットワークの有効性が検証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, researchers have utilized neural network-based speaker embedding
techniques in speaker-recognition tasks to identify speakers accurately.
However, speaker-discriminative embeddings do not always represent speech
features such as age group well. In an embedding model that has been highly
trained to capture speaker traits, the task of age group classification is
closer to speech information leakage. Hence, to improve age group
classification performance, we consider the use of speaker-discriminative
embeddings derived from adversarial multi-task learning to align features and
reduce the domain discrepancy in age subgroups. In addition, we investigated
different types of speaker embeddings to learn and generalize the
domain-invariant representations for age groups. Experimental results on the
VoxCeleb Enrichment dataset verify the effectiveness of our proposed adaptive
adversarial network in multi-objective scenarios and leveraging speaker
embeddings for the domain adaptation task.
- Abstract(参考訳): 近年,ニューラルネットワークに基づく話者埋め込み技術を用いて話者を正確に識別している。
しかし、話者弁別埋め込みは必ずしも年齢グループのような音声特徴を表現するわけではない。
話者の特徴を捉えるために高度に訓練された埋め込みモデルでは,年齢群分類の課題は音声情報漏洩に近い。
そこで,年齢集団の分類性能を向上させるために,多タスク学習から派生した話者識別埋め込みを用いた特徴の調整と年齢サブグループのドメイン不一致の低減について検討する。
さらに,年齢群のドメイン不変表現を学習し一般化するために,話者埋め込みの異なるタイプを調査した。
VoxCeleb Enrichment データセットの実験結果は,多目的シナリオにおける適応型対向ネットワークの有効性を検証し,話者埋め込みをドメイン適応タスクに活用する。
関連論文リスト
- Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。