論文の概要: Deep Neural Networks for Automatic Speaker Recognition Do Not Learn
Supra-Segmental Temporal Features
- arxiv url: http://arxiv.org/abs/2311.00489v2
- Date: Thu, 2 Nov 2023 06:07:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 10:18:02.498174
- Title: Deep Neural Networks for Automatic Speaker Recognition Do Not Learn
Supra-Segmental Temporal Features
- Title(参考訳): 超音節時間特徴を学習しない話者認識のためのディープニューラルネットワーク
- Authors: Daniel Neururer, Volker Dellwo, Thilo Stadelmann
- Abstract要約: 本稿では,話者認識のための最先端ニューラルネットワークの性能が,SSTのモデル化によってどの程度説明できるかを定量化するための新しいテストを提案し,適用する。
話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。
- 参考スコア(独自算出の注目度): 2.724035499453558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep neural networks have shown impressive results in automatic speaker
recognition and related tasks, it is dissatisfactory how little is understood
about what exactly is responsible for these results. Part of the success has
been attributed in prior work to their capability to model supra-segmental
temporal information (SST), i.e., learn rhythmic-prosodic characteristics of
speech in addition to spectral features. In this paper, we (i) present and
apply a novel test to quantify to what extent the performance of
state-of-the-art neural networks for speaker recognition can be explained by
modeling SST; and (ii) present several means to force respective nets to focus
more on SST and evaluate their merits. We find that a variety of CNN- and
RNN-based neural network architectures for speaker recognition do not model SST
to any sufficient degree, even when forced. The results provide a highly
relevant basis for impactful future research into better exploitation of the
full speech signal and give insights into the inner workings of such networks,
enhancing explainability of deep learning for speech technologies.
- Abstract(参考訳): ディープニューラルネットワークは、自動話者認識と関連するタスクで印象的な結果を示しているが、これらの結果に対する正確な責任について、どの程度理解されていないかは不満である。
その成功の一部は、スペクトル的特徴に加えて、音声のリズミカル・プロソディックな特徴を学習するsst(supra-segmental temporal information)をモデル化する能力によるものである。
本稿では,
i) 話者認識のための最先端ニューラルネットワークの性能が、SSTをモデル化することによってどの程度の程度で説明できるかを定量化するための新しい試験および適用方法。
(ii)各ネットにsstをより重視させ、そのメリットを評価する手段をいくつか提示する。
話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。
本研究は,完全音声信号の活用性の向上と,そのネットワークの内部動作に関する洞察を与え,音声技術における深層学習の理解可能性を高めることを目的としている。
関連論文リスト
- Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Spiking Neural Networks for event-based action recognition: A new task to understand their advantage [1.4348901037145936]
スパイキングニューラルネットワーク(SNN)は、そのユニークな時間的ダイナミクスによって特徴づけられる。
フィードフォワードニューラルネットワークにおいて、スパイキングニューロンが時間的特徴抽出を可能にする方法を示す。
また、繰り返しSNNがLSTMに匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2022-09-29T16:22:46Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Towards efficient end-to-end speech recognition with
biologically-inspired neural networks [10.457580011403289]
軸-体性および軸-体性シナプスを模擬した神経接続概念を導入する。
我々は,大規模ASRモデルの生物学的に現実的な実装によって,競争性能が向上できることを初めて実証した。
論文 参考訳(メタデータ) (2021-10-04T21:24:10Z) - Bayesian Neural Networks: An Introduction and Survey [22.018605089162204]
本稿ではベイズニューラルネットワーク(BNN)とその実装に関する基礎研究を紹介する。
異なる近似推論法を比較し、将来の研究が現在の手法でどのように改善されるかを強調するために使用される。
論文 参考訳(メタデータ) (2020-06-22T06:30:15Z) - Rectified Linear Postsynaptic Potential Function for Backpropagation in
Deep Spiking Neural Networks [55.0627904986664]
スパイキングニューラルネットワーク(SNN)は、時間的スパイクパターンを用いて情報を表現し、伝達する。
本稿では,情報符号化,シナプス可塑性,意思決定におけるスパイクタイミングダイナミクスの寄与について検討し,将来のDeepSNNやニューロモルフィックハードウェアシステムの設計への新たな視点を提供する。
論文 参考訳(メタデータ) (2020-03-26T11:13:07Z) - Untangling in Invariant Speech Recognition [17.996356271398295]
我々は、音声を認識するために訓練されたニューラルネットワークの中で、情報を解き放つ方法を研究する。
話者固有のニュアンス変動はネットワーク階層によって排除されるのに対し、タスク関連特性は後続の層で解消される。
計算の各段階におけるタスク関連特徴を効率よく抽出することにより,深部表現が時間的アンハングリングを行うことがわかった。
論文 参考訳(メタデータ) (2020-03-03T20:48:43Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。