Fugu-MT 論文翻訳(概要): Leveraging Speaker Embeddings with Adversarial Multi-task Learning for Age Group Classification

論文の概要: Leveraging Speaker Embeddings with Adversarial Multi-task Learning for Age Group Classification

arxiv url: http://arxiv.org/abs/2301.09058v1
Date: Sun, 22 Jan 2023 05:01:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-24 15:03:57.871801
Title: Leveraging Speaker Embeddings with Adversarial Multi-task Learning for Age Group Classification
Title（参考訳）: 年齢集団分類のための逆マルチタスク学習による話者埋め込みの活用
Authors: Kwangje Baeg, Yeong-Gwan Kim, Young-Sub Han, Byoung-Ki Jeon
Abstract要約: 本研究では, 対人多タスク学習から派生した話者識別型埋め込みを用いて, 年齢層における特徴の整合とドメイン差の低減を図る。 VoxCeleb Enrichment データセットの実験結果から,多目的シナリオにおける適応型対向ネットワークの有効性が検証された。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, researchers have utilized neural network-based speaker embedding techniques in speaker-recognition tasks to identify speakers accurately. However, speaker-discriminative embeddings do not always represent speech features such as age group well. In an embedding model that has been highly trained to capture speaker traits, the task of age group classification is closer to speech information leakage. Hence, to improve age group classification performance, we consider the use of speaker-discriminative embeddings derived from adversarial multi-task learning to align features and reduce the domain discrepancy in age subgroups. In addition, we investigated different types of speaker embeddings to learn and generalize the domain-invariant representations for age groups. Experimental results on the VoxCeleb Enrichment dataset verify the effectiveness of our proposed adaptive adversarial network in multi-objective scenarios and leveraging speaker embeddings for the domain adaptation task.
Abstract（参考訳）: 近年,ニューラルネットワークに基づく話者埋め込み技術を用いて話者を正確に識別している。しかし、話者弁別埋め込みは必ずしも年齢グループのような音声特徴を表現するわけではない。話者の特徴を捉えるために高度に訓練された埋め込みモデルでは,年齢群分類の課題は音声情報漏洩に近い。そこで,年齢集団の分類性能を向上させるために,多タスク学習から派生した話者識別埋め込みを用いた特徴の調整と年齢サブグループのドメイン不一致の低減について検討する。さらに,年齢群のドメイン不変表現を学習し一般化するために,話者埋め込みの異なるタイプを調査した。 VoxCeleb Enrichment データセットの実験結果は,多目的シナリオにおける適応型対向ネットワークの有効性を検証し,話者埋め込みをドメイン適応タスクに活用する。

関連論文リスト

Identifying Speaker Information in Feed-Forward Layers of Self-Supervised Speech Transformers [50.9040167152168]
我々は,k-meansの自己監督的特徴とi-vectorに関連するニューロンを解析した。分析の結果,これらのクラスタは幅広い音韻クラスとジェンダークラスに対応していることがわかった。これらのニューロンをプルーニング中に保護することにより、話者関連タスクの性能を著しく維持することができる。
論文参考訳（メタデータ） (2025-06-26T18:54:26Z)
Rethinking Speaker Embeddings for Speech Generation: Sub-Center Modeling for Capturing Intra-Speaker Diversity [51.250471760075165]
本稿では,学習中に話者単位の複数のサブセンタを利用する新しい話者埋め込みネットワークを提案する。このサブセンターモデリングにより、埋め込みは話者分類性能を維持しながら、幅広い話者固有のバリエーションを捉えることができる。
論文参考訳（メタデータ） (2024-07-05T06:54:24Z)
Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。 Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文参考訳（メタデータ） (2023-05-18T15:59:36Z)
Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文参考訳（メタデータ） (2023-02-06T12:37:57Z)
Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文参考訳（メタデータ） (2022-04-08T16:27:14Z)
Improved Relation Networks for End-to-End Speaker Verification and Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文参考訳（メタデータ） (2022-03-31T17:44:04Z)
Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文参考訳（メタデータ） (2021-11-28T12:51:04Z)
A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文参考訳（メタデータ） (2021-01-24T01:28:05Z)
Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文参考訳（メタデータ） (2020-05-20T01:14:23Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)
Improving speaker discrimination of target speech extraction with time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。 SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文参考訳（メタデータ） (2020-01-23T05:36:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。