論文の概要: Listen to Interpret: Post-hoc Interpretability for Audio Networks with
NMF
- arxiv url: http://arxiv.org/abs/2202.11479v1
- Date: Wed, 23 Feb 2022 13:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 16:21:07.831247
- Title: Listen to Interpret: Post-hoc Interpretability for Audio Networks with
NMF
- Title(参考訳): listen to interpret: nmfを用いたオーディオネットワークのポストホック解釈可能性
- Authors: Jayneel Parekh, Sanjeel Parekh, Pavlo Mozharovskyi, Florence
d'Alch\'e-Buc, Ga\"el Richard
- Abstract要約: 非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。
実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおいて,本手法の適用性を示す。
- 参考スコア(独自算出の注目度): 2.423660247459463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles post-hoc interpretability for audio processing networks.
Our goal is to interpret decisions of a network in terms of high-level audio
objects that are also listenable for the end-user. To this end, we propose a
novel interpreter design that incorporates non-negative matrix factorization
(NMF). In particular, a carefully regularized interpreter module is trained to
take hidden layer representations of the targeted network as input and produce
time activations of pre-learnt NMF components as intermediate outputs. Our
methodology allows us to generate intuitive audio-based interpretations that
explicitly enhance parts of the input signal most relevant for a network's
decision. We demonstrate our method's applicability on popular benchmarks,
including a real-world multi-label classification task.
- Abstract(参考訳): 本稿では,音声処理ネットワークにおけるポストホック解釈可能性に取り組む。
私たちの目標は、エンドユーザーにも聞き取れるハイレベルなオーディオオブジェクトの観点で、ネットワークの決定を解釈することです。
そこで本研究では,非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
特に、注意深く正規化されたインタプリタモジュールをトレーニングし、ターゲットネットワークの隠蔽層表現を入力とし、中間出力として事前学習NMFコンポーネントの時間アクティベーションを生成する。
提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。
実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおける本手法の適用性を示す。
関連論文リスト
- Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。
提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文 参考訳(メタデータ) (2024-05-27T19:25:42Z) - Listenable Maps for Audio Classifiers [13.596715710792528]
本稿では,忠実で聞きやすい解釈を生成するポストホック解釈法であるリスナブル・マップ・フォー・オーディオ(L-MAC)を紹介する。
L-MACは、事前訓練された分類器の上のデコーダを使用して、入力オーディオの関連部分をハイライトするバイナリマスクを生成する。
L-MACは複数の勾配法やマスキング法よりも忠実な解釈を一貫して生成することを示す。
論文 参考訳(メタデータ) (2024-03-19T18:32:48Z) - Focal Modulation Networks for Interpretable Sound Classification [14.360545133618267]
本稿では、最近提案された注目なし焦点変調ネットワーク(FocalNets)を利用して、音声領域における解釈可能性設計の問題に対処する。
本研究では,FocalNetsを環境音の分類タスクに適用し,その解釈可能性特性をESC-50データセット上で評価する。
本手法は、精度と解釈可能性の両方において、同様の大きさの視覚変換器より優れる。
論文 参考訳(メタデータ) (2024-02-05T06:20:52Z) - An Explainable Proxy Model for Multiabel Audio Segmentation [1.7611027732647493]
音声活動(SAD)、音楽(MD)、ノイズ(ND)、重畳音声検出(OSD)を同時に解くための説明可能なマルチラベルセグメンテーションモデルを提案する。
2つのデータセットで実施された実験は、トレーニング済みのブラックボックスモデルと同様のパフォーマンスを示しながら、強い説明可能性を示している。
論文 参考訳(メタデータ) (2024-01-16T10:41:33Z) - Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文 参考訳(メタデータ) (2023-05-11T20:50:51Z) - Guiding the PLMs with Semantic Anchors as Intermediate Supervision:
Towards Interpretable Semantic Parsing [57.11806632758607]
本稿では,既存の事前学習言語モデルを階層型デコーダネットワークに組み込むことを提案する。
第一原理構造をセマンティックアンカーとすることで、2つの新しい中間管理タスクを提案する。
いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-10-04T07:27:29Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。