論文の概要: Graph-based Multi-View Fusion and Local Adaptation: Mitigating
Within-Household Confusability for Speaker Identification
- arxiv url: http://arxiv.org/abs/2207.04081v1
- Date: Fri, 8 Jul 2022 18:12:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 13:55:17.535779
- Title: Graph-based Multi-View Fusion and Local Adaptation: Mitigating
Within-Household Confusability for Speaker Identification
- Title(参考訳): グラフベース多視点融合と局所適応:話者識別のための住宅内難読化
- Authors: Long Chen, Yixiong Meng, Venkatesh Ravichandran, Andreas Stolcke
- Abstract要約: この研究は話者ラベル推論(スコーリング)に焦点を当て、家庭固有の適応と多信号融合を実現するための簡単なソリューションを提供する。
VoxCelebデータセットの実験により、当社のアプローチは、異なる顧客コホートとコンフューザビリティの程度を持つ家庭全体のパフォーマンスを一貫して改善することを示した。
- 参考スコア(独自算出の注目度): 11.722220318901933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker identification (SID) in the household scenario (e.g., for smart
speakers) is an important but challenging problem due to limited number of
labeled (enrollment) utterances, confusable voices, and demographic imbalances.
Conventional speaker recognition systems generalize from a large random sample
of speakers, causing the recognition to underperform for households drawn from
specific cohorts or otherwise exhibiting high confusability. In this work, we
propose a graph-based semi-supervised learning approach to improve
household-level SID accuracy and robustness with locally adapted graph
normalization and multi-signal fusion with multi-view graphs. Unlike other work
on household SID, fairness, and signal fusion, this work focuses on speaker
label inference (scoring) and provides a simple solution to realize
household-specific adaptation and multi-signal fusion without tuning the
embeddings or training a fusion network. Experiments on the VoxCeleb dataset
demonstrate that our approach consistently improves the performance across
households with different customer cohorts and degrees of confusability.
- Abstract(参考訳): 家庭のシナリオ(例えばスマートスピーカー)における話者識別(SID)は、ラベル付き(登録)発話の限られた数、不適切な声、人口動態の不均衡のために重要だが難しい問題である。
従来の話者認識システムは、大きなランダムな話者サンプルから一般化し、特定のコホートや高い信頼感を示す家庭では認識が過小評価される。
本研究では,地域適応グラフ正規化と多視点グラフによる多信号融合による家庭レベルのsid精度とロバスト性を向上させるためのグラフベース半教師付き学習手法を提案する。
家庭内SID、公正性、信号融合に関する他の研究とは異なり、この研究は話者ラベル推論(スコーリング)に焦点を当て、埋め込みの調整や融合ネットワークの訓練をすることなく、家庭固有の適応と多信号融合を実現するための簡単なソリューションを提供する。
VoxCelebデータセットの実験により、当社のアプローチは、異なる顧客コホートとコンフューザビリティの程度を持つ家庭全体のパフォーマンスを一貫して改善することを示した。
関連論文リスト
- Pose-Transformation and Radial Distance Clustering for Unsupervised Person Re-identification [5.522856885199346]
人物再識別(re-ID)は、重複しないカメラ間での同一性マッチングの問題に対処することを目的としている。
監視されたアプローチでは、取得が困難になり、トレーニング対象のデータセットに対して本質的にバイアスがかかる可能性のあるID情報が必要となる。
本稿では,真のラベルの知識をゼロにすることで,学習した特徴の識別能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T20:55:30Z) - A contrastive-learning approach for auditory attention detection [11.28441753596964]
本稿では,参加音声信号の潜在表現と対応する脳波信号との差を最小化するために,自己教師付き学習に基づく手法を提案する。
この結果と以前に公表した手法を比較し,検証セット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-24T03:13:53Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - VoxWatch: An open-set speaker recognition benchmark on VoxCeleb [10.84962993456577]
オープンセット話者識別(OSI)は、テスト音声サンプルが事前登録された個人(セット内)の話者であるかどうか、またはアウトオブセット話者の話者であるかどうかを決定する。
インセット話者人口が増加するにつれて、アウト・オブ・セットのスコアが大きくなり、誤警報率が増加する。
我々は,VoxCelebデータセットを用いて開発したOSIの最初の公開ベンチマークを示す。
論文 参考訳(メタデータ) (2023-06-30T23:11:38Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Graph-based Label Propagation for Semi-Supervised Speaker Identification [10.87690067963342]
家庭シナリオにおける話者識別のためのグラフに基づく半教師付き学習手法を提案する。
提案手法は,2つの最先端スコアリング手法と比較して,ラベル付きデータの有効利用と話者識別精度の向上を図っている。
論文 参考訳(メタデータ) (2021-06-15T15:10:33Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Dual-Refinement: Joint Label and Feature Refinement for Unsupervised
Domain Adaptive Person Re-Identification [51.98150752331922]
Unsupervised Domain Adaptive (UDA) Person Re-identification (再ID) は、ターゲットドメインデータのラベルが欠落しているため、難しい作業です。
オフラインクラスタリングフェーズにおける擬似ラベルとオンライントレーニングフェーズにおける特徴を共同で改良する,デュアルリファインメントと呼ばれる新しいアプローチを提案する。
本手法は最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2020-12-26T07:35:35Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。