論文の概要: Towards Musically Meaningful Explanations Using Source Separation
- arxiv url: http://arxiv.org/abs/2009.02051v1
- Date: Fri, 4 Sep 2020 08:09:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 02:25:30.676452
- Title: Towards Musically Meaningful Explanations Using Source Separation
- Title(参考訳): 音源分離を用いた音楽的意味説明に向けて
- Authors: Verena Haunschmid, Ethan Manilow, Gerhard Widmer
- Abstract要約: LIME(Local Interpretable Model-Agnostic Explanation)に基づくAudioLIMEを提案する。
LIMEは、我々が説明したい例の摂動について局所線型モデルを学ぶ。
摂動は、オン/オフソースを切り替えることで、説明が聞きやすくなります。
- 参考スコア(独自算出の注目度): 8.330944624666838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are successfully applied in a wide variety of
music information retrieval (MIR) tasks. Such models are usually considered
"black boxes", meaning that their predictions are not interpretable. Prior work
on explainable models in MIR has generally used image processing tools to
produce explanations for DNN predictions, but these are not necessarily
musically meaningful, or can be listened to (which, arguably, is important in
music). We propose audioLIME, a method based on Local Interpretable
Model-agnostic Explanation (LIME), extended by a musical definition of
locality. LIME learns locally linear models on perturbations of an example that
we want to explain. Instead of extracting components of the spectrogram using
image segmentation as part of the LIME pipeline, we propose using source
separation. The perturbations are created by switching on/off sources which
makes our explanations listenable. We first validate audioLIME on a classifier
that was deliberately trained to confuse the true target with a spurious
signal, and show that this can easily be detected using our method. We then
show that it passes a sanity check that many available explanation methods
fail. Finally, we demonstrate the general applicability of our (model-agnostic)
method on a third-party music tagger.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、様々な音楽情報検索(MIR)タスクにうまく適用されている。
このようなモデルは一般に「ブラックボックス」と見なされるため、予測は解釈できない。
MIRにおける説明可能なモデルに関する以前の研究は、一般的に画像処理ツールを使用してDNN予測の説明を生成するが、必ずしも音楽的に意味のあるものではない。
本研究では,局所的な解釈可能なモデル非依存説明(lime)に基づく手法であるaudiolimeを提案する。
LIMEは、我々が説明したい例の摂動について局所線型モデルを学ぶ。
LIMEパイプラインの一部として画像セグメンテーションを用いて分光図の成分を抽出する代わりに,ソース分離を用いる手法を提案する。
摂動は、オン/オフソースを切り替えることで、説明が聞きやすくなります。
まず,本手法を用いて真の対象をスプリアス信号と混同するように故意に訓練した分類器上でaudiolimeを検証し,これを容易に検出できることを示す。
次に、利用可能な多くの説明方法が失敗する正当性チェックをパスしていることを示します。
最後に、サードパーティの音楽タガーにおける(モデルに依存しない)メソッドの一般的な適用性を示す。
関連論文リスト
- Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Interpretability at Scale: Identifying Causal Mechanisms in Alpaca [62.65877150123775]
本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
論文 参考訳(メタデータ) (2023-05-15T17:15:40Z) - AudioSlots: A slot-centric generative model for audio separation [26.51135156983783]
本稿では,音声領域におけるブラインド音源分離のためのスロット中心生成モデルであるAudioSlotsを提案する。
我々は、置換同変損失関数を用いて、エンド・ツー・エンドでモデルを訓練する。
We results on Libri2Mix speech separation is a proof of concept that this approach shows promise。
論文 参考訳(メタデータ) (2023-05-09T16:28:07Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Interpretations Steered Network Pruning via Amortized Inferred Saliency
Maps [85.49020931411825]
限られたリソースを持つエッジデバイスにこれらのモデルをデプロイするには、畳み込みニューラルネットワーク(CNN)圧縮が不可欠である。
本稿では,新しい視点からチャネルプルーニング問題に対処するために,モデルの解釈を活用して,プルーニング過程を解析する手法を提案する。
本研究では,実時間スムーズなスムーズなスムーズなスムーズなマスク予測を行うセレクタモデルを導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2022-09-07T01:12:11Z) - On the Veracity of Local, Model-agnostic Explanations in Audio
Classification: Targeted Investigations with Adversarial Examples [5.744593856232663]
LIMEのようなローカルな説明手法がMIRで普及している。
本稿は、LIMEの説明の真正性についてより深い知見を得るための対象調査について報告する。
論文 参考訳(メタデータ) (2021-07-19T17:54:10Z) - Codified audio language modeling learns useful representations for music
information retrieval [77.63657430536593]
符号化された(不明瞭に符号化された)オーディオ学習表現に基づいて事前学習された言語モデルは、下流のMIRタスクに有用であることを示す。
Jukeboxの表現にMIRの有用な情報が含まれているかどうかを判断するために、入力機能として使用し、いくつかのMIRタスクで浅いモデルを訓練する。
従来の手法では,Jukeboxの表現はタグ付けによる事前学習モデルよりもかなり強く,符号化された音声言語モデリングによる事前学習は盲点に対処する可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-12T18:28:50Z) - Tracing Back Music Emotion Predictions to Sound Sources and Intuitive
Perceptual Qualities [6.832341432995627]
音楽感情認識は,音楽情報検索研究において重要な課題である。
より良いモデルに向けた重要なステップの1つは、モデルが実際にデータから学んでいるものを理解することである。
本研究では,高レベルの感情予測に結びつくスペクトル画像セグメントを用いて,モデル予測の説明を導出する方法を示す。
論文 参考訳(メタデータ) (2021-06-14T22:49:19Z) - Leveraging Sparse Linear Layers for Debuggable Deep Networks [86.94586860037049]
学習した深い特徴表現に疎い線形モデルを適用することで、よりデバッグ可能なニューラルネットワークを実現する方法を示す。
その結果、スパースな説明は、スプリアス相関を特定し、誤分類を説明し、視覚および言語タスクにおけるモデルバイアスを診断するのに役立ちます。
論文 参考訳(メタデータ) (2021-05-11T08:15:25Z) - audioLIME: Listenable Explanations Using Source Separation [8.330944624666838]
LIME(Local Interpretable Model-Agnostic Explanations)に基づくAudioLIMEを提案する。
LIMEで使用される摂動は、ソース分離によって抽出されたコンポーネントをオン/オフすることで生成される。
我々は,2つの異なる音楽タグシステム上でAudioLIMEを検証し,競合する手法では不可能な状況において合理的な説明を行うことを示す。
論文 参考訳(メタデータ) (2020-08-02T23:05:02Z) - Reliable Local Explanations for Machine Listening [26.740558689178865]
本研究では,現在最先端の深層歌唱音声検出(SVD)モデルを用いて,SoundLIMEからの説明がモデル入力の摂動にどう影響するかを解析する。
本稿では,機械聴取モデルの入力を確実に排除するための,適切なコンテンツタイプを定量的に同定する手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T21:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。