論文の概要: AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark
- arxiv url: http://arxiv.org/abs/1807.03418v3
- Date: Mon, 27 Nov 2023 18:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 04:02:36.534623
- Title: AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark
- Title(参考訳): AudioMNIST: 単純なベンチマークによるオーディオ分析のための説明可能な人工知能の探索
- Authors: S\"oren Becker, Johanna Vielhaben, Marcel Ackermann, Klaus-Robert
M\"uller, Sebastian Lapuschkin, Wojciech Samek
- Abstract要約: 本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
- 参考スコア(独自算出の注目度): 12.034688724153044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable Artificial Intelligence (XAI) is targeted at understanding how
models perform feature selection and derive their classification decisions.
This paper explores post-hoc explanations for deep neural networks in the audio
domain. Notably, we present a novel Open Source audio dataset consisting of
30,000 audio samples of English spoken digits which we use for classification
tasks on spoken digits and speakers' biological sex. We use the popular XAI
technique Layer-wise Relevance Propagation (LRP) to identify relevant features
for two neural network architectures that process either waveform or
spectrogram representations of the data. Based on the relevance scores obtained
from LRP, hypotheses about the neural networks' feature selection are derived
and subsequently tested through systematic manipulations of the input data.
Further, we take a step beyond visual explanations and introduce audible
heatmaps. We demonstrate the superior interpretability of audible explanations
over visual ones in a human user study.
- Abstract(参考訳): 説明可能な人工知能(XAI)は、モデルがどのように特徴の選択を行い、それらの分類決定を導出するかを理解することを目的としている。
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について述べる。
本稿では,英語音声の音声サンプル3万点からなるオープンソースの音声データセットを提案する。
一般的なXAI技術であるLayer-wise Relevance Propagation (LRP)を用いて、データの波形またはスペクトログラム表現を処理する2つのニューラルネットワークアーキテクチャに関連する特徴を特定する。
LRPから得られる関連スコアに基づいて、ニューラルネットワークの特徴選択に関する仮説が導出され、その後、入力データの体系的な操作によってテストされる。
さらに、視覚的な説明を超えて、可聴ヒートマップを導入する。
人間のユーザ研究における視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
関連論文リスト
- Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - XAI-based Comparison of Input Representations for Audio Event
Classification [10.874097312428235]
我々はeXplainable AI(XAI)を活用し、異なる入力表現に基づいて訓練されたモデルの基本的な分類戦略を理解する。
具体的には、オーディオイベント検出に使用される関連する入力機能について、2つのモデルアーキテクチャを比較した。
論文 参考訳(メタデータ) (2023-04-27T08:30:07Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Interpreting deep urban sound classification using Layer-wise Relevance
Propagation [5.177947445379688]
本研究は, 都市音分類のためのディープニューラルネットワークを構築することにより, 聴覚障害に悩まされるドライバの敏感な応用に焦点を当てた。
我々は,MelとConstant-Qスペクトログラムの2つの異なる音声信号表現を使用し,ディープニューラルネットワークによる決定は,レイヤワイド関連伝搬によって説明される。
総合的に、深層都市音の分類を理解するための説明可能なAIフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-19T14:15:45Z) - Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。
単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文 参考訳(メタデータ) (2021-10-27T08:51:42Z) - DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。
ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文 参考訳(メタデータ) (2021-10-13T01:39:57Z) - What do End-to-End Speech Models Learn about Speaker, Language and
Channel Information? A Layer-wise and Neuron-level Analysis [16.850888973106706]
本稿では,事前学習した音声モデルの探索フレームワークを用いたポストホック機能解析を行う。
話者認識や方言識別といった様々なタスクのために訓練された音声モデルの発話レベル表現を解析する。
i) チャネル情報と性別情報はネットワーク全体に分散され,i) 情報はタスクに関してニューロンで冗長に利用可能であり,iv) 弁証情報などの複雑な特性はタスク指向の事前学習ネットワークでのみ符号化される。
論文 参考訳(メタデータ) (2021-07-01T13:32:55Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。