論文の概要: Evaluating Speaker Identity Coding in Self-supervised Models and Humans
- arxiv url: http://arxiv.org/abs/2406.10401v1
- Date: Fri, 14 Jun 2024 20:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:42:24.876617
- Title: Evaluating Speaker Identity Coding in Self-supervised Models and Humans
- Title(参考訳): 自己教師型モデルと人間における話者同一性符号化の評価
- Authors: Gasser Elbanna,
- Abstract要約: 話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
- 参考スコア(独自算出の注目度): 0.42303492200814446
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speaker identity plays a significant role in human communication and is being increasingly used in societal applications, many through advances in machine learning. Speaker identity perception is an essential cognitive phenomenon that can be broadly reduced to two main tasks: recognizing a voice or discriminating between voices. Several studies have attempted to identify acoustic correlates of identity perception to pinpoint salient parameters for such a task. Unlike other communicative social signals, most efforts have yielded inefficacious conclusions. Furthermore, current neurocognitive models of voice identity processing consider the bases of perception as acoustic dimensions such as fundamental frequency, harmonics-to-noise ratio, and formant dispersion. However, these findings do not account for naturalistic speech and within-speaker variability. Representational spaces of current self-supervised models have shown significant performance in various speech-related tasks. In this work, we demonstrate that self-supervised representations from different families (e.g., generative, contrastive, and predictive models) are significantly better for speaker identification over acoustic representations. We also show that such a speaker identification task can be used to better understand the nature of acoustic information representation in different layers of these powerful networks. By evaluating speaker identification accuracy across acoustic, phonemic, prosodic, and linguistic variants, we report similarity between model performance and human identity perception. We further examine these similarities by juxtaposing the encoding spaces of models and humans and challenging the use of distance metrics as a proxy for speaker proximity. Lastly, we show that some models can predict brain responses in Auditory and Language regions during naturalistic stimuli.
- Abstract(参考訳): 話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、機械学習の進歩を通じて、社会的な応用においてますます利用されている。
話者識別知覚は、声を認識するか、声を区別するかの2つの主なタスクに広く還元できる重要な認知現象である。
いくつかの研究は、同一性知覚の音響的相関を、そのようなタスクの有意なパラメータをピンポイントで特定しようと試みている。
他のコミュニケーションの社会的信号とは異なり、ほとんどの努力は非効率な結論を導いた。
さらに、現在の音声識別処理の神経認知モデルでは、知覚の基盤を基本周波数、ハーモニクス-雑音比、フォルマント分散といった音響的次元と見なしている。
しかし、これらの知見は自然主義的発話と話者内変動を考慮に入れていない。
現在の自己教師型モデルの表現空間は、様々な音声関連タスクにおいて顕著な性能を示している。
本研究では、音響表現よりも話者識別において、異なる家族(例えば、生成的、コントラスト的、予測的モデル)の自己教師付き表現が著しく優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
話者識別精度を音響,音声,韻律,言語的変種で評価することにより,モデル性能と人間の同一性知覚との類似性を報告する。
さらに、モデルと人間のエンコーディング空間を近似することで、これらの類似性を検証し、話者近接のプロキシとして距離メトリクスを使うことに挑戦する。
最後に,自然刺激時の聴覚・言語領域の脳反応を予測できるモデルについて述べる。
関連論文リスト
- Enhancing Personality Recognition in Dialogue by Data Augmentation and
Heterogeneous Conversational Graph Networks [30.33718960981521]
パーソナリティ認識は、ユーザ適応応答をカスタマイズするロボットの能力を高めるのに有用である。
この課題の1つは、既存の対話コーパスにおける話者の限られた数である。
論文 参考訳(メタデータ) (2024-01-11T12:27:33Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文 参考訳(メタデータ) (2021-04-29T01:08:53Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - Data-driven Detection and Analysis of the Patterns of Creaky Voice [13.829936505895692]
クレーキー音声はフレーズ境界マーカーとしてよく使われる品質である。
難解な音声の自動検出とモデリングは、音声技術への応用に影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2020-05-31T13:34:30Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。