論文の概要: APEX: Audio Prototype EXplanations for Classification Tasks
- arxiv url: http://arxiv.org/abs/2605.10153v1
- Date: Mon, 11 May 2026 08:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.623253
- Title: APEX: Audio Prototype EXplanations for Classification Tasks
- Title(参考訳): APEX: 分類タスクのためのオーディオプロトタイプ記述
- Authors: Piotr Kawa, Kornel Howil, Piotr Borycki, Miłosz Adamczyk, Przemysław Spurek, Piotr Syga,
- Abstract要約: APEX (Audio Prototype Explanations) は、事前訓練されたオーディオ分類器を解釈するためのフレームワークである。
説明は4つの視点に分かれている: 一時的なイベントをローカライズするためのスクエアベースのプロトタイプ、時間ベースの時間パターン、周波数ベースのスペクトルバンドのハイライト、時間ベースの統合。
標準勾配法よりも意味的明瞭度が高い。
- 参考スコア(独自算出の注目度): 4.385522611751555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Explainable AI (XAI) has achieved remarkable success in image classification, yet the audio domain lacks equally mature solutions. Current methods apply vision-based attribution techniques to spectrograms, overlooking fundamental differences between visual and acoustic signals. While prototype reasoning is promising, acoustic similarity remains multidimensional. We introduce APEX (Audio Prototype EXplanations), a post-hoc framework for interpreting pre-trained audio classifiers. Crucially, APEX requires no fine-tuning of the original backbone and strictly preserves output invariance. APEX disentangles explanations into four perspectives: Square-based prototypes to localize transient events, Time-based for temporal patterns, Frequency-based highlighting spectral bands, and Time-Frequency-based integrating both. This yields intuitive, example-based explanations that respect acoustic properties, providing greater semantic clarity than standard gradient-based methods.
- Abstract(参考訳): 説明可能なAI(XAI)は画像分類において顕著な成功を収めているが、オーディオ領域には同様に成熟したソリューションがない。
現在の方法では、視覚信号と音響信号の基本的な違いを見越して、分光器に視覚ベースの属性技術を適用している。
プロトタイプの推論は有望であるが、音響的類似性は多次元のままである。
本稿では,事前学習した音声分類器を解釈するためのポストホックフレームワークであるAPEX(Audio Prototype Explanations)を紹介する。
重要なことは、APEXは元のバックボーンを微調整する必要がなく、出力の不変性を厳密に保っている。
APEXは説明を4つの視点に絞っている: 一時的なイベントをローカライズするためのスクエアベースのプロトタイプ、時間ベースの時間パターン、周波数ベースのスペクトルバンドのハイライト、時間ベースの統合。
これにより、音響特性を尊重する直感的な例に基づく説明が得られ、標準勾配法よりも意味的明瞭度が高い。
関連論文リスト
- Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。
統一デコーダは 時空間のスムーズなバイアスを示します
LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:30:41Z) - Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。
本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文 参考訳(メタデータ) (2026-01-29T12:16:19Z) - A Framework for Evaluating Faithfulness in Explainable AI for Machine Anomalous Sound Detection Using Frequency-Band Perturbation [37.2521660642532]
機械音響解析におけるXAI忠実度を評価するための新しい定量的枠組みを提案する。
我々は,XAI技術が信頼性に違いがあることを示し,Occlusionは真のモデル感度と最強のアライメントを示す。
論文 参考訳(メタデータ) (2026-01-26T23:06:50Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - XAI-based Comparison of Input Representations for Audio Event
Classification [10.874097312428235]
我々はeXplainable AI(XAI)を活用し、異なる入力表現に基づいて訓練されたモデルの基本的な分類戦略を理解する。
具体的には、オーディオイベント検出に使用される関連する入力機能について、2つのモデルアーキテクチャを比較した。
論文 参考訳(メタデータ) (2023-04-27T08:30:07Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Single microphone speaker extraction using unified time-frequency
Siamese-Unet [22.224446472612197]
両表現を用いたSiamese-Unetアーキテクチャを提案する。
周波数領域にシームエンコーダを適用し、ノイズスペクトルと基準スペクトルの埋め込みを推定する。
このモデルは、時間領域情報を活用するために、SI-SDR(Scale-Invariant Signal-to-Distortion Ratio)損失をトレーニングする。
論文 参考訳(メタデータ) (2022-03-06T11:45:30Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。