論文の概要: audioLIME: Listenable Explanations Using Source Separation
- arxiv url: http://arxiv.org/abs/2008.00582v3
- Date: Mon, 7 Sep 2020 08:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 20:01:56.097926
- Title: audioLIME: Listenable Explanations Using Source Separation
- Title(参考訳): audioLIME:ソース分離を用いたリスナブルな説明
- Authors: Verena Haunschmid, Ethan Manilow, Gerhard Widmer
- Abstract要約: LIME(Local Interpretable Model-Agnostic Explanations)に基づくAudioLIMEを提案する。
LIMEで使用される摂動は、ソース分離によって抽出されたコンポーネントをオン/オフすることで生成される。
我々は,2つの異なる音楽タグシステム上でAudioLIMEを検証し,競合する手法では不可能な状況において合理的な説明を行うことを示す。
- 参考スコア(独自算出の注目度): 8.330944624666838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are successfully applied in a wide variety of
music information retrieval (MIR) tasks but their predictions are usually not
interpretable. We propose audioLIME, a method based on Local Interpretable
Model-agnostic Explanations (LIME) extended by a musical definition of
locality. The perturbations used in LIME are created by switching on/off
components extracted by source separation which makes our explanations
listenable. We validate audioLIME on two different music tagging systems and
show that it produces sensible explanations in situations where a competing
method cannot.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は様々な音楽情報検索(MIR)タスクにうまく適用されているが、その予測は通常解釈できない。
本稿では,局所性の定義によって拡張された局所解釈型モデル非依存記述(LIME)に基づくAudioLIMEを提案する。
LIMEで使用される摂動は、ソース分離によって抽出されたコンポーネントのオン/オフを切り替えることで、説明を聴くことができる。
2つの異なる音楽タグシステム上でaudiolimeを検証し,競合する方法ができない状況において,合理的な説明を生成することを示す。
関連論文リスト
- Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。
MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-04T08:37:47Z) - Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models [49.87432626548563]
本稿では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。
以上の結果から,LALMは音声コンテンツの理解において,特別な音声キャプションモデルに匹敵するものであることが明らかとなった。
差別的質問に対するLALMの性能を高めるために,迅速なエンジニアリングの可能性を探る。
論文 参考訳(メタデータ) (2024-06-12T16:51:54Z) - LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文 参考訳(メタデータ) (2023-05-11T20:50:51Z) - AudioSlots: A slot-centric generative model for audio separation [26.51135156983783]
本稿では,音声領域におけるブラインド音源分離のためのスロット中心生成モデルであるAudioSlotsを提案する。
我々は、置換同変損失関数を用いて、エンド・ツー・エンドでモデルを訓練する。
We results on Libri2Mix speech separation is a proof of concept that this approach shows promise。
論文 参考訳(メタデータ) (2023-05-09T16:28:07Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Listen to Interpret: Post-hoc Interpretability for Audio Networks with
NMF [2.423660247459463]
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。
実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおいて,本手法の適用性を示す。
論文 参考訳(メタデータ) (2022-02-23T13:00:55Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Towards Musically Meaningful Explanations Using Source Separation [8.330944624666838]
LIME(Local Interpretable Model-Agnostic Explanation)に基づくAudioLIMEを提案する。
LIMEは、我々が説明したい例の摂動について局所線型モデルを学ぶ。
摂動は、オン/オフソースを切り替えることで、説明が聞きやすくなります。
論文 参考訳(メタデータ) (2020-09-04T08:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。