論文の概要: Listenable Maps for Audio Classifiers
- arxiv url: http://arxiv.org/abs/2403.13086v3
- Date: Wed, 19 Jun 2024 16:49:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 04:39:52.092426
- Title: Listenable Maps for Audio Classifiers
- Title(参考訳): 音声分類のための可聴マップ
- Authors: Francesco Paissan, Mirco Ravanelli, Cem Subakan,
- Abstract要約: 本稿では,忠実で聞きやすい解釈を生成するポストホック解釈法であるリスナブル・マップ・フォー・オーディオ(L-MAC)を紹介する。
L-MACは、事前訓練された分類器の上のデコーダを使用して、入力オーディオの関連部分をハイライトするバイナリマスクを生成する。
L-MACは複数の勾配法やマスキング法よりも忠実な解釈を一貫して生成することを示す。
- 参考スコア(独自算出の注目度): 13.596715710792528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive performance of deep learning models across diverse tasks, their complexity poses challenges for interpretation. This challenge is particularly evident for audio signals, where conveying interpretations becomes inherently difficult. To address this issue, we introduce Listenable Maps for Audio Classifiers (L-MAC), a posthoc interpretation method that generates faithful and listenable interpretations. L-MAC utilizes a decoder on top of a pretrained classifier to generate binary masks that highlight relevant portions of the input audio. We train the decoder with a loss function that maximizes the confidence of the classifier decision on the masked-in portion of the audio while minimizing the probability of model output for the masked-out portion. Quantitative evaluations on both in-domain and out-of-domain data demonstrate that L-MAC consistently produces more faithful interpretations than several gradient and masking-based methodologies. Furthermore, a user study confirms that, on average, users prefer the interpretations generated by the proposed technique.
- Abstract(参考訳): さまざまなタスクにわたるディープラーニングモデルの素晴らしいパフォーマンスにもかかわらず、その複雑さは解釈に挑戦する。
この課題は、音声信号の伝達が本質的に困難になる場合に特に顕著である。
この問題に対処するために,音声分類のためのリスナブルマップ (L-MAC) を導入し,忠実で聞きやすい解釈を生成するポストホック解釈法を提案する。
L-MACは、事前訓練された分類器の上のデコーダを使用して、入力オーディオの関連部分をハイライトするバイナリマスクを生成する。
我々は、マスクアウト部分のモデル出力の確率を最小化しつつ、音声のマスクイン部分における分類器決定の信頼性を最大化する損失関数でデコーダを訓練する。
領域内および領域外データの定量的評価は、L-MACが複数の勾配およびマスキングに基づく手法よりも一貫して忠実な解釈を生成することを示す。
さらに,ユーザスタディでは,提案手法が生成した解釈を平均的に好んでいることを確認した。
関連論文リスト
- ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。
提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文 参考訳(メタデータ) (2024-05-27T19:25:42Z) - Multi-Granularity Guided Fusion-in-Decoder [7.87348193562399]
複数レベルの粒度にまたがる証拠を識別するために,MGFiD(Multi-Granularity Guided Fusion-in-Decoder)を提案する。
MGFiDは、マルチタスク学習に基づいて、文分類でランク付けされた経路を調和させる。
通過プルーニングにおける経路再ランクの結果を再利用することにより、復号効率を向上させる。
論文 参考訳(メタデータ) (2024-04-03T08:56:00Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文 参考訳(メタデータ) (2023-05-11T20:50:51Z) - Robust Semantic Communications with Masked VQ-VAE Enabled Codebook [56.63571713657059]
本稿では,ロバストなエンドツーエンドのセマンティック通信システムにおいて,セマンティックノイズに対処するためのフレームワークを提案する。
セマンティックノイズに対処するため、重み付き対向トレーニングを開発し、トレーニングデータセットにセマンティックノイズを組み込む。
ノイズやタスク非関連の特徴を抑える機能重要モジュール (FIM) を開発した。
論文 参考訳(メタデータ) (2022-06-08T16:58:47Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - Listen to Interpret: Post-hoc Interpretability for Audio Networks with
NMF [2.423660247459463]
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。
実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおいて,本手法の適用性を示す。
論文 参考訳(メタデータ) (2022-02-23T13:00:55Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Disentangling Representations of Text by Masking Transformers [27.6903196190087]
トランスウェイトや隠れたユニット上のバイナリマスクを学習し、特定の変動要因と相関する特徴のサブセットを明らかにします。
本稿では,映画評論における感情表現をジャンルから切り離す能力,つぶやきにおける方言からの「毒性」,意味論からの構文について評価する。
論文 参考訳(メタデータ) (2021-04-14T22:45:34Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。