論文の概要: Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification
- arxiv url: http://arxiv.org/abs/2407.17416v1
- Date: Wed, 10 Jul 2024 07:37:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-28 18:19:29.678179
- Title: Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification
- Title(参考訳): 機械学習におけるスペクトログラムの説明:音声分類のためのニューラルネットワークに関する研究
- Authors: Jesin James, Balamurali B. T., Binu Abeysinghe, Junchen Liu,
- Abstract要約: 本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
- 参考スコア(独自算出の注目度): 2.4472308031704073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates discriminative patterns learned by neural networks for accurate speech classification, with a specific focus on vowel classification tasks. By examining the activations and features of neural networks for vowel classification, we gain insights into what the networks "see" in spectrograms. Through the use of class activation mapping, we identify the frequencies that contribute to vowel classification and compare these findings with linguistic knowledge. Experiments on a American English dataset of vowels showcases the explainability of neural networks and provides valuable insights into the causes of misclassifications and their characteristics when differentiating them from unvoiced speech. This study not only enhances our understanding of the underlying acoustic cues in vowel classification but also offers opportunities for improving speech recognition by bridging the gap between abstract representations in neural networks and established linguistic knowledge
- Abstract(参考訳): 本研究では,ニューラルネットワークによって学習された母音分類課題に着目し,正確な音声分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
クラスアクティベーションマッピングを用いて、母音分類に寄与する周波数を特定し、これらの知見を言語知識と比較する。
アメリカ英語の母音データセットの実験は、ニューラルネットワークの説明可能性を示し、誤分類の原因とその声の聞こえない音声と区別する際の特徴に関する貴重な洞察を提供する。
この研究は、母音分類における基礎となる音響的手がかりの理解を深めるだけでなく、ニューラルネットワークにおける抽象表現と確立された言語知識のギャップを埋めることで音声認識を改善する機会を提供する。
関連論文リスト
- Acoustic characterization of speech rhythm: going beyond metrics with
recurrent neural networks [0.0]
我々は,21言語における音声記録の大規模データベース上で,言語識別タスク上で繰り返しニューラルネットワークを訓練する。
ネットワークは、40%のケースで10秒の録音の言語を識別することができ、その3分の2はトップ3の推測だった。
論文 参考訳(メタデータ) (2024-01-22T09:49:44Z) - Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Initial Study into Application of Feature Density and
Linguistically-backed Embedding to Improve Machine Learning-based
Cyberbullying Detection [54.83707803301847]
この研究は、自動サイバーバブル検出に関するKaggleコンペティションで提供されたFormspringデータセットで実施された。
本研究は,サイバブリング検出におけるニューラルネットワークの有効性と分類器性能と特徴密度の相関性を確認した。
論文 参考訳(メタデータ) (2022-06-04T03:17:15Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks [0.0]
音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供することができる。
本稿では, 音声の獲得を, 生成適応型ネットワークアーキテクチャにおけるランダム空間と生成した音声データ間の依存性としてモデル化することができることを論じる。
本稿では,音韻的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
論文 参考訳(メタデータ) (2020-06-06T20:31:23Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。