論文の概要: Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization
- arxiv url: http://arxiv.org/abs/2305.07132v1
- Date: Thu, 11 May 2023 20:50:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:34:40.036150
- Title: Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization
- Title(参考訳): 非負行列分解による音声分類網の解法可能性
- Authors: Jayneel Parekh, Sanjeel Parekh, Pavlo Mozharovskyi, Ga\"el Richard,
Florence d'Alch\'e-Buc
- Abstract要約: 本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
- 参考スコア(独自算出の注目度): 2.423660247459463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles two major problem settings for interpretability of audio
processing networks, post-hoc and by-design interpretation. For post-hoc
interpretation, we aim to interpret decisions of a network in terms of
high-level audio objects that are also listenable for the end-user. This is
extended to present an inherently interpretable model with high performance. To
this end, we propose a novel interpreter design that incorporates non-negative
matrix factorization (NMF). In particular, an interpreter is trained to
generate a regularized intermediate embedding from hidden layers of a target
network, learnt as time-activations of a pre-learnt NMF dictionary. Our
methodology allows us to generate intuitive audio-based interpretations that
explicitly enhance parts of the input signal most relevant for a network's
decision. We demonstrate our method's applicability on a variety of
classification tasks, including multi-label data for real-world audio and
music.
- Abstract(参考訳): 本稿では,音声処理ネットワークの解釈可能性,ポストホック,副設計の2つの問題に対処する。
ポストホックな解釈では、エンドユーザーにも聞き取れるハイレベルなオーディオオブジェクトを用いて、ネットワークの決定を解釈することを目的としている。
これは性能の高い本質的に解釈可能なモデルに拡張される。
そこで本研究では,非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
特に、インタプリタは、ターゲットネットワークの隠れ層から正規化中間埋め込みを生成し、事前学習したNMF辞書のタイムアクティベーションとして学習する。
提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。
実環境における音声・音楽のマルチラベルデータを含む,様々な分類課題に対する本手法の適用性を示す。
関連論文リスト
- Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。
提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文 参考訳(メタデータ) (2024-05-27T19:25:42Z) - Listenable Maps for Audio Classifiers [13.596715710792528]
本稿では,忠実で聞きやすい解釈を生成するポストホック解釈法であるリスナブル・マップ・フォー・オーディオ(L-MAC)を紹介する。
L-MACは、事前訓練された分類器の上のデコーダを使用して、入力オーディオの関連部分をハイライトするバイナリマスクを生成する。
L-MACは複数の勾配法やマスキング法よりも忠実な解釈を一貫して生成することを示す。
論文 参考訳(メタデータ) (2024-03-19T18:32:48Z) - Focal Modulation Networks for Interpretable Sound Classification [14.360545133618267]
本稿では、最近提案された注目なし焦点変調ネットワーク(FocalNets)を利用して、音声領域における解釈可能性設計の問題に対処する。
本研究では,FocalNetsを環境音の分類タスクに適用し,その解釈可能性特性をESC-50データセット上で評価する。
本手法は、精度と解釈可能性の両方において、同様の大きさの視覚変換器より優れる。
論文 参考訳(メタデータ) (2024-02-05T06:20:52Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Listen to Interpret: Post-hoc Interpretability for Audio Networks with
NMF [2.423660247459463]
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。
実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおいて,本手法の適用性を示す。
論文 参考訳(メタデータ) (2022-02-23T13:00:55Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。