論文の概要: Focal Modulation Networks for Interpretable Sound Classification
- arxiv url: http://arxiv.org/abs/2402.02754v1
- Date: Mon, 5 Feb 2024 06:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-06 17:35:45.451034
- Title: Focal Modulation Networks for Interpretable Sound Classification
- Title(参考訳): 解釈可能な音響分類のための焦点変調ネットワーク
- Authors: Luca Della Libera, Cem Subakan, Mirco Ravanelli
- Abstract要約: 本稿では、最近提案された注目なし焦点変調ネットワーク(FocalNets)を利用して、音声領域における解釈可能性設計の問題に対処する。
本研究では,FocalNetsを環境音の分類タスクに適用し,その解釈可能性特性をESC-50データセット上で評価する。
本手法は、精度と解釈可能性の両方において、同様の大きさの視覚変換器より優れる。
- 参考スコア(独自算出の注目度): 14.360545133618267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing success of deep neural networks has raised concerns about
their inherent black-box nature, posing challenges related to interpretability
and trust. While there has been extensive exploration of interpretation
techniques in vision and language, interpretability in the audio domain has
received limited attention, primarily focusing on post-hoc explanations. This
paper addresses the problem of interpretability by-design in the audio domain
by utilizing the recently proposed attention-free focal modulation networks
(FocalNets). We apply FocalNets to the task of environmental sound
classification for the first time and evaluate their interpretability
properties on the popular ESC-50 dataset. Our method outperforms a similarly
sized vision transformer both in terms of accuracy and interpretability.
Furthermore, it is competitive against PIQ, a method specifically designed for
post-hoc interpretation in the audio domain.
- Abstract(参考訳): ディープニューラルネットワークの成功の増加は、その固有のブラックボックスの性質に対する懸念を高め、解釈可能性と信頼に関する課題を提起している。
視覚と言語における解釈技術は広く研究されてきたが、音声領域における解釈可能性については、主にポストホックな説明に焦点が当てられている。
本稿では,最近提案されている注意のない焦点変調ネットワーク(focalnets)を用いて,音声領域における可読性 by-design の問題に対処する。
本研究では,FocalNetsを環境音の分類タスクに適用し,その解釈可能性特性をESC-50データセット上で評価する。
本手法は, 精度と解釈性の両方において, 同様の大きさの視覚トランスフォーマーよりも優れている。
さらに、音声領域におけるポストホック解釈に特化して設計されたPIQと競合する。
関連論文リスト
- Transformation of audio embeddings into interpretable, concept-based representations [1.5293427903448022]
音声ニューラルネットワークから抽出した音声埋め込みのセマンティック解釈可能性について検討する。
我々はCLAP埋め込みを意味論的解釈性を備えた概念ベースでスパースな表現に変換する。
音声埋め込みの概念に基づく解釈可能性のための3つの音声固有語彙を公表する。
論文 参考訳(メタデータ) (2025-04-18T21:00:50Z) - Reasoning with the Theory of Mind for Pragmatic Semantic Communication [62.87895431431273]
本稿では,実用的な意味コミュニケーションフレームワークを提案する。
2つの知性エージェント間の効果的な目標指向情報共有を可能にする。
数値的な評価は、少ないビット量で効率的な通信を実現するためのフレームワークの能力を示している。
論文 参考訳(メタデータ) (2023-11-30T03:36:19Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文 参考訳(メタデータ) (2023-05-11T20:50:51Z) - Listen to Interpret: Post-hoc Interpretability for Audio Networks with
NMF [2.423660247459463]
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。
実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおいて,本手法の適用性を示す。
論文 参考訳(メタデータ) (2022-02-23T13:00:55Z) - Interpreting deep urban sound classification using Layer-wise Relevance
Propagation [5.177947445379688]
本研究は, 都市音分類のためのディープニューラルネットワークを構築することにより, 聴覚障害に悩まされるドライバの敏感な応用に焦点を当てた。
我々は,MelとConstant-Qスペクトログラムの2つの異なる音声信号表現を使用し,ディープニューラルネットワークによる決定は,レイヤワイド関連伝搬によって説明される。
総合的に、深層都市音の分類を理解するための説明可能なAIフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-19T14:15:45Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - Contextual Interference Reduction by Selective Fine-Tuning of Neural
Networks [1.0152838128195465]
本研究では,不整合前景対象オブジェクト表現の干渉におけるコンテキストの役割について検討する。
私たちはボトムアップとトップダウンの処理パラダイムの恩恵を受けるフレームワークに取り組んでいます。
論文 参考訳(メタデータ) (2020-11-21T20:11:12Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z) - HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech
Deep Features in Adversarial Networks [29.821666380496637]
HiFi-GANは録音された音声をスタジオで録音されたかのように音に変換する。
強調音声の知覚的品質を改善するために、識別器の深い特徴マッチング損失に依存している。
客観的および主観的な実験において、最先端のベースライン法を著しく上回る。
論文 参考訳(メタデータ) (2020-06-10T07:24:39Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。