論文の概要: LMAC-TD: Producing Time Domain Explanations for Audio Classifiers
- arxiv url: http://arxiv.org/abs/2409.08655v1
- Date: Fri, 13 Sep 2024 09:14:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:08:51.618376
- Title: LMAC-TD: Producing Time Domain Explanations for Audio Classifiers
- Title(参考訳): LMAC-TD:音声分類のための時間領域記述法
- Authors: Eleonora Mancini, Francesco Paissan, Mirco Ravanelli, Cem Subakan,
- Abstract要約: 時間領域で直接説明を生成するためにデコーダを訓練するポストホックな説明法であるLMAC-TDを提案する。
我々は,LMAC-TDが忠実さを犠牲にすることなく,生成した説明の質を著しく向上させることを示す。
- 参考スコア(独自算出の注目度): 12.446324804274628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks are typically black-boxes that remain opaque with regards to their decision mechanisms. Several works in the literature have proposed post-hoc explanation methods to alleviate this issue. This paper proposes LMAC-TD, a post-hoc explanation method that trains a decoder to produce explanations directly in the time domain. This methodology builds upon the foundation of L-MAC, Listenable Maps for Audio Classifiers, a method that produces faithful and listenable explanations. We incorporate SepFormer, a popular transformer-based time-domain source separation architecture. We show through a user study that LMAC-TD significantly improves the audio quality of the produced explanations while not sacrificing from faithfulness.
- Abstract(参考訳): ニューラルネットワークは通常、その決定機構に関して不透明なままであるブラックボックスである。
文学におけるいくつかの研究は、この問題を緩和するためのポストホックな説明法を提案している。
本稿では,デコーダの時間領域における説明を直接生成するよう訓練するポストホックな説明法であるLMAC-TDを提案する。
この方法論は、忠実で聞きやすい説明を生成するL-MAC, Listenable Maps for Audio Classifiersの基盤となっている。
我々は、人気のあるトランスフォーマーベースの時間領域ソース分離アーキテクチャであるSepFormerを組み込んだ。
我々は,LMAC-TDが忠実さを犠牲にすることなく,生成した説明の質を著しく向上させることを示す。
関連論文リスト
- Optimal Transport Maps are Good Voice Converters [58.42556113055807]
本稿では,メル・スペクトログラムや自己教師付き音声モデルの潜在表現など,さまざまなデータ表現に最適なトランスポートアルゴリズムを提案する。
メリースペクトルデータ表現では、Frechet Audio Distance (FAD) を用いて強い結果が得られる。
我々は,限られた参照話者データであっても,最先端の成果を達成し,既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-17T22:48:53Z) - How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio? [53.58852794805362]
部分的にスプーフされたオーディオで訓練された対策(CM)は、そのようなスプーフを効果的に検出することができる。
我々はGrad-CAMを利用し、CMの判断を解釈するために定量的分析指標を導入する。
バルナフッ化物とスプーフドオーディオを連結した場合に発生する遷移領域のアーティファクトをCMが優先していることが判明した。
論文 参考訳(メタデータ) (2024-06-04T16:51:42Z) - Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。
提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文 参考訳(メタデータ) (2024-05-27T19:25:42Z) - Listenable Maps for Audio Classifiers [13.596715710792528]
本稿では,忠実で聞きやすい解釈を生成するポストホック解釈法であるリスナブル・マップ・フォー・オーディオ(L-MAC)を紹介する。
L-MACは、事前訓練された分類器の上のデコーダを使用して、入力オーディオの関連部分をハイライトするバイナリマスクを生成する。
L-MACは複数の勾配法やマスキング法よりも忠実な解釈を一貫して生成することを示す。
論文 参考訳(メタデータ) (2024-03-19T18:32:48Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - AudioSlots: A slot-centric generative model for audio separation [26.51135156983783]
本稿では,音声領域におけるブラインド音源分離のためのスロット中心生成モデルであるAudioSlotsを提案する。
我々は、置換同変損失関数を用いて、エンド・ツー・エンドでモデルを訓練する。
We results on Libri2Mix speech separation is a proof of concept that this approach shows promise。
論文 参考訳(メタデータ) (2023-05-09T16:28:07Z) - Extending Compositional Attention Networks for Social Reasoning in
Videos [84.12658971655253]
ビデオにおけるソーシャルインタラクションを推論するタスクのための,新しいディープアーキテクチャを提案する。
構成注意ネットワーク(MAC)の多段階推論機能を活用し,マルチモーダル拡張(MAC-X)を提案する。
論文 参考訳(メタデータ) (2022-10-03T19:03:01Z) - Discern: Discourse-Aware Entailment Reasoning Network for Conversational
Machine Reading [157.14821839576678]
Discernは、ドキュメントとダイアログの両方の理解を強化するために、接続を強化し、理解を深める、談話対応の係り受け推論ネットワークである。
実験の結果,意思決定におけるマクロ平均精度78.3%,フォローアップ質問生成における64.0 BLEU1が得られた。
論文 参考訳(メタデータ) (2020-10-05T07:49:51Z) - Towards Musically Meaningful Explanations Using Source Separation [8.330944624666838]
LIME(Local Interpretable Model-Agnostic Explanation)に基づくAudioLIMEを提案する。
LIMEは、我々が説明したい例の摂動について局所線型モデルを学ぶ。
摂動は、オン/オフソースを切り替えることで、説明が聞きやすくなります。
論文 参考訳(メタデータ) (2020-09-04T08:09:03Z) - audioLIME: Listenable Explanations Using Source Separation [8.330944624666838]
LIME(Local Interpretable Model-Agnostic Explanations)に基づくAudioLIMEを提案する。
LIMEで使用される摂動は、ソース分離によって抽出されたコンポーネントをオン/オフすることで生成される。
我々は,2つの異なる音楽タグシステム上でAudioLIMEを検証し,競合する手法では不可能な状況において合理的な説明を行うことを示す。
論文 参考訳(メタデータ) (2020-08-02T23:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。