論文の概要: Learning spectro-temporal representations of complex sounds with
parameterized neural networks
- arxiv url: http://arxiv.org/abs/2103.07125v1
- Date: Fri, 12 Mar 2021 07:53:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 21:35:35.927272
- Title: Learning spectro-temporal representations of complex sounds with
parameterized neural networks
- Title(参考訳): パラメータ化ニューラルネットワークを用いた複素音のスペクトル時間表現の学習
- Authors: Rachid Riad and Julien Karadayi and Anne-Catherine Bachoud-L\'evi and
Emmanuel Dupoux
- Abstract要約: 本稿では、Gaborカーネル(Learnable STRF)に基づく特定の分光時間変調を演算するパラメトリゼーションニューラルネットワーク層を提案する。
音声活動検出,話者照合,都市音響分類,ゼブラフィンチ呼出タイプの分類において,この層の予測能力を評価した。
この層は完全に解釈可能であるので、学習した分光時間変調の分布を記述するために定量的な尺度を用いた。
- 参考スコア(独自算出の注目度): 16.270691619752288
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep Learning models have become potential candidates for auditory
neuroscience research, thanks to their recent successes on a variety of
auditory tasks. Yet, these models often lack interpretability to fully
understand the exact computations that have been performed. Here, we proposed a
parametrized neural network layer, that computes specific spectro-temporal
modulations based on Gabor kernels (Learnable STRFs) and that is fully
interpretable. We evaluated predictive capabilities of this layer on Speech
Activity Detection, Speaker Verification, Urban Sound Classification and Zebra
Finch Call Type Classification. We found out that models based on Learnable
STRFs are on par for all tasks with different toplines, and obtain the best
performance for Speech Activity Detection. As this layer is fully
interpretable, we used quantitative measures to describe the distribution of
the learned spectro-temporal modulations. The filters adapted to each task and
focused mostly on low temporal and spectral modulations. The analyses show that
the filters learned on human speech have similar spectro-temporal parameters as
the ones measured directly in the human auditory cortex. Finally, we observed
that the tasks organized in a meaningful way: the human vocalizations tasks
closer to each other and bird vocalizations far away from human vocalizations
and urban sounds tasks.
- Abstract(参考訳): 深層学習モデルは、近年の様々な聴覚タスクの成功により、聴覚神経科学研究の候補となりつつある。
しかし、これらのモデルはしばしば、実行された正確な計算を完全に理解する解釈能力が欠けている。
そこで本研究では,Gaborカーネル(Learnable STRF)に基づく特定のスペクトル時間変調を算出し,完全に解釈可能なパラメータ化ニューラルネットワーク層を提案する。
音声活動検出,話者照合,都市音響分類,ゼブラフィンチ呼出タイプの分類において,この層の予測能力を評価した。
その結果、学習可能なSTRFに基づくモデルは、トポラインの異なる全てのタスクに対して同等であり、音声活動検出に最適な性能が得られることがわかった。
この層は完全に解釈可能であるので、学習した分光時間変調の分布を記述するために定量的な尺度を用いた。
各タスクに適応し、主に低時間およびスペクトル変調に焦点を当てたフィルタ。
分析の結果,ヒトの音声で学習したフィルタは,ヒトの聴覚野で直接測定されたフィルタとよく似たスペクトル時間パラメータを持つことがわかった。
最後に,人間の声化タスクが互いに近接し,鳥の声化タスクが人間の声化タスクや都市音化タスクから遠く離れた,有意義な方法で編成されたことを観察した。
関連論文リスト
- On the Utility of Speech and Audio Foundation Models for Marmoset Call Analysis [19.205671029694074]
本研究は,4,8,16kHzの事前学習帯域において,音声領域と一般音声領域から派生した特徴表現をマーモセットコールタイプおよび発信者分類タスクに対して評価する。
その結果、より高い帯域幅を持つモデルでは性能が向上し、音声や一般音声での事前学習では同等の結果が得られ、スペクトルベースラインよりも改善されることがわかった。
論文 参考訳(メタデータ) (2024-07-23T12:00:44Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Interpreting deep urban sound classification using Layer-wise Relevance
Propagation [5.177947445379688]
本研究は, 都市音分類のためのディープニューラルネットワークを構築することにより, 聴覚障害に悩まされるドライバの敏感な応用に焦点を当てた。
我々は,MelとConstant-Qスペクトログラムの2つの異なる音声信号表現を使用し,ディープニューラルネットワークによる決定は,レイヤワイド関連伝搬によって説明される。
総合的に、深層都市音の分類を理解するための説明可能なAIフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-19T14:15:45Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - PhyAAt: Physiology of Auditory Attention to Speech Dataset [0.5976833843615385]
自然発話に対する聴覚的注意は複雑な脳プロセスである。
本稿では,聴覚的注意実験から自然音声への生理的信号のデータセットについて述べる。
論文 参考訳(メタデータ) (2020-05-23T17:55:18Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。