論文の概要: Leveraging Speaker Embeddings with Adversarial Multi-task Learning for
Age Group Classification
- arxiv url: http://arxiv.org/abs/2301.09058v1
- Date: Sun, 22 Jan 2023 05:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:03:57.871801
- Title: Leveraging Speaker Embeddings with Adversarial Multi-task Learning for
Age Group Classification
- Title(参考訳): 年齢集団分類のための逆マルチタスク学習による話者埋め込みの活用
- Authors: Kwangje Baeg, Yeong-Gwan Kim, Young-Sub Han, Byoung-Ki Jeon
- Abstract要約: 本研究では, 対人多タスク学習から派生した話者識別型埋め込みを用いて, 年齢層における特徴の整合とドメイン差の低減を図る。
VoxCeleb Enrichment データセットの実験結果から,多目的シナリオにおける適応型対向ネットワークの有効性が検証された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, researchers have utilized neural network-based speaker embedding
techniques in speaker-recognition tasks to identify speakers accurately.
However, speaker-discriminative embeddings do not always represent speech
features such as age group well. In an embedding model that has been highly
trained to capture speaker traits, the task of age group classification is
closer to speech information leakage. Hence, to improve age group
classification performance, we consider the use of speaker-discriminative
embeddings derived from adversarial multi-task learning to align features and
reduce the domain discrepancy in age subgroups. In addition, we investigated
different types of speaker embeddings to learn and generalize the
domain-invariant representations for age groups. Experimental results on the
VoxCeleb Enrichment dataset verify the effectiveness of our proposed adaptive
adversarial network in multi-objective scenarios and leveraging speaker
embeddings for the domain adaptation task.
- Abstract(参考訳): 近年,ニューラルネットワークに基づく話者埋め込み技術を用いて話者を正確に識別している。
しかし、話者弁別埋め込みは必ずしも年齢グループのような音声特徴を表現するわけではない。
話者の特徴を捉えるために高度に訓練された埋め込みモデルでは,年齢群分類の課題は音声情報漏洩に近い。
そこで,年齢集団の分類性能を向上させるために,多タスク学習から派生した話者識別埋め込みを用いた特徴の調整と年齢サブグループのドメイン不一致の低減について検討する。
さらに,年齢群のドメイン不変表現を学習し一般化するために,話者埋め込みの異なるタイプを調査した。
VoxCeleb Enrichment データセットの実験結果は,多目的シナリオにおける適応型対向ネットワークの有効性を検証し,話者埋め込みをドメイン適応タスクに活用する。
関連論文リスト
- Speaker- and Age-Invariant Training for Child Acoustic Modeling Using
Adversarial Multi-Task Learning [19.09026965041249]
対話型マルチタスク学習に基づく話者・年齢不変学習手法を提案する。
このシステムはOGI音声コーパスに適用され,ASRのWERを13%削減した。
論文 参考訳(メタデータ) (2022-10-19T01:17:40Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。