論文の概要: XAI-based Comparison of Input Representations for Audio Event
Classification
- arxiv url: http://arxiv.org/abs/2304.14019v1
- Date: Thu, 27 Apr 2023 08:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 14:06:39.800847
- Title: XAI-based Comparison of Input Representations for Audio Event
Classification
- Title(参考訳): XAIを用いた音声イベント分類のための入力表現の比較
- Authors: Annika Frommholz, Fabian Seipel, Sebastian Lapuschkin, Wojciech Samek,
Johanna Vielhaben
- Abstract要約: 我々はeXplainable AI(XAI)を活用し、異なる入力表現に基づいて訓練されたモデルの基本的な分類戦略を理解する。
具体的には、オーディオイベント検出に使用される関連する入力機能について、2つのモデルアーキテクチャを比較した。
- 参考スコア(独自算出の注目度): 10.874097312428235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks are a promising tool for Audio Event Classification. In
contrast to other data like natural images, there are many sensible and
non-obvious representations for audio data, which could serve as input to these
models. Due to their black-box nature, the effect of different input
representations has so far mostly been investigated by measuring classification
performance. In this work, we leverage eXplainable AI (XAI), to understand the
underlying classification strategies of models trained on different input
representations. Specifically, we compare two model architectures with regard
to relevant input features used for Audio Event Detection: one directly
processes the signal as the raw waveform, and the other takes in its
time-frequency spectrogram representation. We show how relevance heatmaps
obtained via "Siren"{Layer-wise Relevance Propagation} uncover
representation-dependent decision strategies. With these insights, we can make
a well-informed decision about the best input representation in terms of
robustness and representativity and confirm that the model's classification
strategies align with human requirements.
- Abstract(参考訳): ディープニューラルネットワークは、オーディオイベントの分類に有望なツールである。
自然画像のような他のデータとは対照的に、これらのモデルへの入力として機能する音声データには、多くの知覚可能で観測不能な表現がある。
ブラックボックスの性質から,従来は異なる入力表現の効果を分類性能の測定によって検討してきた。
本研究では、eXplainable AI(XAI)を活用し、異なる入力表現に基づいてトレーニングされたモデルの基本的な分類戦略を理解する。
具体的には,2つのモデルアーキテクチャと,音声イベント検出に用いる入力特性を比較した。1つは信号を直接生波形として処理し,もう1つは時間周波数スペクトル表現を取る。
siren"{layer-wise associated propagation} によって得られた関連ヒートマップが,表現依存的決定戦略を明らかにする方法を示す。
これらの知見により、ロバスト性や表現性の観点から最良の入力表現について十分な情報を得た決定を行い、モデルの分類戦略が人間の要求と一致していることを確認することができる。
関連論文リスト
- Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - Visually-aware Acoustic Event Detection using Heterogeneous Graphs [39.90352230010103]
聴覚イベントの知覚は、本質的に音声と視覚の両方に依存するマルチモーダルである。
モーダル性の間の空間的および時間的関係を捉えるために異種グラフを用いる。
空間スケールと時間スケールの両方において,モダリティ内およびモダリティ間の関係を効率的にモデル化する。
論文 参考訳(メタデータ) (2022-07-16T13:09:25Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - SoundCLR: Contrastive Learning of Representations For Improved
Environmental Sound Classification [0.6767885381740952]
SoundCLRは、最先端の性能を持つ効果的な環境音分類のための教師付きコントラスト学習手法である。
利用可能な環境音のデータセットのサイズが比較的小さいため、転送学習と強力なデータ拡張パイプラインを提案し、活用する。
実験の結果,log-melスペクトルを用いたマスキングによる拡張技術により,認識性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2021-03-02T18:42:45Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。