論文の概要: Explainable Attribute-Based Speaker Verification
- arxiv url: http://arxiv.org/abs/2405.19796v1
- Date: Thu, 30 May 2024 08:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:28:56.582682
- Title: Explainable Attribute-Based Speaker Verification
- Title(参考訳): 説明可能な属性ベース話者検証
- Authors: Xiaoliang Wu, Chau Luu, Peter Bell, Ajitha Rajan,
- Abstract要約: 属性に基づく説明可能な話者検証(SV)システムを提案する。
音声記録から自動的に抽出される性別、国籍、年齢などの個人属性を比較して話者を特定する。
このアプローチは人間の推論とよく一致し、従来の方法よりも理解しやすい、と私たちは信じています。
- 参考スコア(独自算出の注目度): 12.941187430993796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a fully explainable approach to speaker verification (SV), a task that fundamentally relies on individual speaker characteristics. The opaque use of speaker attributes in current SV systems raises concerns of trust. Addressing this, we propose an attribute-based explainable SV system that identifies speakers by comparing personal attributes such as gender, nationality, and age extracted automatically from voice recordings. We believe this approach better aligns with human reasoning, making it more understandable than traditional methods. Evaluated on the Voxceleb1 test set, the best performance of our system is comparable with the ground truth established when using all correct attributes, proving its efficacy. Whilst our approach sacrifices some performance compared to non-explainable methods, we believe that it moves us closer to the goal of transparent, interpretable AI and lays the groundwork for future enhancements through attribute expansion.
- Abstract(参考訳): 本稿では,個々の話者特性に基本的に依存する課題である話者検証(SV)について,完全に説明可能なアプローチを提案する。
現在のSVシステムにおける話者属性の不透明な使用は、信頼の懸念を引き起こす。
そこで本稿では,音声録音から自動的に抽出される性別,国籍,年齢などの個人属性を比較し,話者を識別する属性ベースの説明可能なSVシステムを提案する。
このアプローチは人間の推論とよく一致し、従来の方法よりも理解しやすい、と私たちは信じています。
Voxceleb1 テストセットで評価すると,システムの性能は,すべての正解属性を用いて,その有効性を証明する上で確立された基礎的真理に匹敵する。
当社のアプローチでは、説明不可能な方法と比較してパフォーマンスを犠牲にしていますが、透過的で解釈可能なAIの目標に近づき、属性拡張による将来の拡張の基盤を築き上げていると信じています。
関連論文リスト
- Unveiling Hidden Factors: Explainable AI for Feature Boosting in Speech Emotion Recognition [17.568724398229232]
音声感情認識(SER)は、メンタルヘルス、教育、人間とコンピュータの相互作用など、いくつかの応用分野から注目されている。
本研究では,機械学習モデルの性能向上のための特徴関連性と説明可能性を強調した,SERの反復的特徴増強手法を提案する。
提案手法の有効性をトロントの感情音声セット(TESS)、ベルリンの感情音声データベース(EMO-DB)、Ryersonの感情音声データベース(RAVDESS)、Surrey Audio-Visual Expressed Emotioned Emotion(SAVEE)データセットのSERベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-01T00:39:55Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - Learning Separable Hidden Unit Contributions for Speaker-Adaptive Lip-Reading [73.59525356467574]
話者自身の特徴は、ほとんど顔画像や浅いネットワークを持つ単一の画像によって常にうまく表現できる。
話し手によって表現される音声コンテンツに付随するきめ細かい動的特徴には、常に深いシーケンシャルネットワークが必要である。
私たちのアプローチは、既存の方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2023-10-08T07:48:25Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self supervised learning for robust voice cloning [3.7989740031754806]
自己教師型フレームワークで学習した特徴を用いて,高品質な音声表現を生成する。
学習した特徴は、事前訓練された発話レベルの埋め込みや、非減衰タコトロンアーキテクチャへの入力として使用される。
この手法により、ラベルなしマルチスピーカデータセットでモデルをトレーニングし、未知の話者埋め込みを用いて話者の声を模倣することができる。
論文 参考訳(メタデータ) (2022-04-07T13:05:24Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Adversarial Disentanglement of Speaker Representation for
Attribute-Driven Privacy Preservation [17.344080729609026]
話者音声表現における属性駆動プライバシー保存の概念について紹介する。
これにより、悪意のあるインターセプターやアプリケーションプロバイダに1つ以上の個人的な側面を隠すことができる。
本稿では,話者属性の音声表現に絡み合った逆自動符号化手法を提案し,その隠蔽を可能にする。
論文 参考訳(メタデータ) (2020-12-08T14:47:23Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Unsupervised Representation Disentanglement using Cross Domain Features
and Adversarial Learning in Variational Autoencoder based Voice Conversion [28.085498706505774]
音声変換(VC)の効果的なアプローチは、音声信号の他のコンポーネントから言語内容を切り離すことである。
本稿では,逆学習の概念を取り入れ,CDVAE-VCフレームワークを拡張した。
論文 参考訳(メタデータ) (2020-01-22T02:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。