論文の概要: Explainable by-design Audio Segmentation through Non-Negative Matrix Factorization and Probing
- arxiv url: http://arxiv.org/abs/2406.13385v1
- Date: Wed, 19 Jun 2024 09:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 20:22:37.745721
- Title: Explainable by-design Audio Segmentation through Non-Negative Matrix Factorization and Probing
- Title(参考訳): 非負行列分解と探索による説明可能なバイデザイン音声分割
- Authors: Martin Lebourdais, Théo Mariotte, Antonio Almudévar, Marie Tahon, Alfonso Ortega,
- Abstract要約: 非負行列分解(NMF)に基づく説明可能な音声分割モデルを提案する。
そこで本研究では,NMFから抽出した潜在表現の詳細な解析を行い,高いセグメンテーション性能を示す。
- 参考スコア(独自算出の注目度): 2.725974570970591
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio segmentation is a key task for many speech technologies, most of which are based on neural networks, usually considered as black boxes, with high-level performances. However, in many domains, among which health or forensics, there is not only a need for good performance but also for explanations about the output decision. Explanations derived directly from latent representations need to satisfy "good" properties, such as informativeness, compactness, or modularity, to be interpretable. In this article, we propose an explainable-by-design audio segmentation model based on non-negative matrix factorization (NMF) which is a good candidate for the design of interpretable representations. This paper shows that our model reaches good segmentation performances, and presents deep analyses of the latent representation extracted from the non-negative matrix. The proposed approach opens new perspectives toward the evaluation of interpretable representations according to "good" properties.
- Abstract(参考訳): 音声セグメンテーションは多くの音声技術において重要なタスクであり、そのほとんどはニューラルネットワークに基づいており、通常はブラックボックスと見なされる。
しかし、健康や法医学など多くの分野では、優れたパフォーマンスだけでなく、アウトプットの決定に関する説明も必要とされている。
潜在表現から直接導かれる説明は、解釈可能な情報性、コンパクト性、モジュラリティといった「良い」性質を満たす必要がある。
本稿では,非負行列分解(NMF)に基づく音声分割モデルを提案する。
本稿では,本モデルがセグメンテーション性能に優れており,非負行列から抽出した潜在表現の深い解析結果を示す。
提案手法は「良い」性質に基づく解釈可能な表現の評価に対する新たな視点を開放する。
関連論文リスト
- Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文 参考訳(メタデータ) (2023-05-11T20:50:51Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Listen to Interpret: Post-hoc Interpretability for Audio Networks with
NMF [2.423660247459463]
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。
実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおいて,本手法の適用性を示す。
論文 参考訳(メタデータ) (2022-02-23T13:00:55Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。
反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。
我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文 参考訳(メタデータ) (2021-10-28T16:12:33Z) - Combining Discrete Choice Models and Neural Networks through Embeddings:
Formulation, Interpretability and Performance [10.57079240576682]
本研究では、ニューラルネットワーク(ANN)を用いた理論とデータ駆動選択モデルを組み合わせた新しいアプローチを提案する。
特に、分類的または離散的説明変数を符号化するために、埋め込みと呼ばれる連続ベクトル表現を用いる。
我々のモデルは最先端の予測性能を提供し、既存のANNモデルよりも優れ、必要なネットワークパラメータの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-09-24T15:55:31Z) - Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。
我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。
我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文 参考訳(メタデータ) (2021-05-14T06:58:44Z) - Generative Counterfactuals for Neural Networks via Attribute-Informed
Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。
異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。
実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文 参考訳(メタデータ) (2021-01-18T08:37:13Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Interpretable Representations in Explainable AI: From Theory to Practice [7.031336702345381]
解釈可能な表現は、ブラックボックス予測システムをターゲットにした多くの説明器のバックボーンである。
人間の理解可能な概念の存在と欠如をエンコードする解釈可能な表現の特性について検討する。
論文 参考訳(メタデータ) (2020-08-16T21:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。