Fugu-MT 論文翻訳(概要): Explainable by-design Audio Segmentation through Non-Negative Matrix Factorization and Probing

論文の概要: Explainable by-design Audio Segmentation through Non-Negative Matrix Factorization and Probing

arxiv url: http://arxiv.org/abs/2406.13385v1
Date: Wed, 19 Jun 2024 09:26:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-21 20:22:37.745721
Title: Explainable by-design Audio Segmentation through Non-Negative Matrix Factorization and Probing
Title（参考訳）: 非負行列分解と探索による説明可能なバイデザイン音声分割
Authors: Martin Lebourdais, Théo Mariotte, Antonio Almudévar, Marie Tahon, Alfonso Ortega,
Abstract要約: 非負行列分解(NMF)に基づく説明可能な音声分割モデルを提案する。そこで本研究では,NMFから抽出した潜在表現の詳細な解析を行い,高いセグメンテーション性能を示す。
参考スコア（独自算出の注目度）: 2.725974570970591
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Audio segmentation is a key task for many speech technologies, most of which are based on neural networks, usually considered as black boxes, with high-level performances. However, in many domains, among which health or forensics, there is not only a need for good performance but also for explanations about the output decision. Explanations derived directly from latent representations need to satisfy "good" properties, such as informativeness, compactness, or modularity, to be interpretable. In this article, we propose an explainable-by-design audio segmentation model based on non-negative matrix factorization (NMF) which is a good candidate for the design of interpretable representations. This paper shows that our model reaches good segmentation performances, and presents deep analyses of the latent representation extracted from the non-negative matrix. The proposed approach opens new perspectives toward the evaluation of interpretable representations according to "good" properties.
Abstract（参考訳）: 音声セグメンテーションは多くの音声技術において重要なタスクであり、そのほとんどはニューラルネットワークに基づいており、通常はブラックボックスと見なされる。しかし、健康や法医学など多くの分野では、優れたパフォーマンスだけでなく、アウトプットの決定に関する説明も必要とされている。潜在表現から直接導かれる説明は、解釈可能な情報性、コンパクト性、モジュラリティといった「良い」性質を満たす必要がある。本稿では,非負行列分解(NMF)に基づく音声分割モデルを提案する。本稿では,本モデルがセグメンテーション性能に優れており,非負行列から抽出した潜在表現の深い解析結果を示す。提案手法は「良い」性質に基づく解釈可能な表現の評価に対する新たな視点を開放する。

関連論文リスト

Model Interpretability and Rationale Extraction by Input Mask Optimization [2.3020018305241337]
本稿では,ニューラルネットワークによる予測のための抽出的説明を生成する手法を提案する。マスキングは、勾配に基づく最適化と新しい正規化スキームを組み合わせて行われる。画像の入力に同じ手法を適用し、画像分類のための高品質な説明を得る。
論文参考訳（メタデータ） (2025-08-15T10:41:09Z)
Interpretable Image Classification via Non-parametric Part Prototype Learning [14.390730075612248]
解釈可能な意思決定プロセスで画像を分類することは、コンピュータビジョンにおける長年の問題である。近年、自己説明可能なニューラルネットワークのアプローチとして、プロトタイプのPart Networksが注目を集めている。本稿では,各クラスに対して意味的に固有のオブジェクト部品の集合を学習する,部分的解釈可能な画像分類のためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T10:46:53Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Efficient Fairness-Performance Pareto Front Computation [51.558848491038916]
最適公正表現はいくつかの有用な構造特性を持つことを示す。そこで,これらの近似問題は,凹凸プログラミング法により効率的に解けることを示す。
論文参考訳（メタデータ） (2024-09-26T08:46:48Z)
Tackling Interpretability in Audio Classification Networks with Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文参考訳（メタデータ） (2023-05-11T20:50:51Z)
Listen to Interpret: Post-hoc Interpretability for Audio Networks with NMF [2.423660247459463]
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。提案手法により,ネットワークの判断に最も関係のある入力信号の一部を明示的に拡張する直感的な音声ベースの解釈を生成することができる。実世界のマルチラベル分類タスクを含む,一般的なベンチマークにおいて,本手法の適用性を示す。
論文参考訳（メタデータ） (2022-02-23T13:00:55Z)
Learning Debiased and Disentangled Representations for Semantic Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文参考訳（メタデータ） (2021-10-31T16:15:09Z)
Self-Supervised Learning Disentangled Group Representation as Feature [82.07737719232972]
既存の自己監督学習(SSL)は、回転や着色などの単純な拡張機能のみを分解することを示す。反復的分割に基づく不変リスク最小化(IP-IRM)を提案する。我々は、IP-IRMが完全に不整合表現に収束し、様々なベンチマークでその効果を示すことを証明した。
論文参考訳（メタデータ） (2021-10-28T16:12:33Z)
Combining Discrete Choice Models and Neural Networks through Embeddings: Formulation, Interpretability and Performance [10.57079240576682]
本研究では、ニューラルネットワーク(ANN)を用いた理論とデータ駆動選択モデルを組み合わせた新しいアプローチを提案する。特に、分類的または離散的説明変数を符号化するために、埋め込みと呼ばれる連続ベクトル表現を用いる。我々のモデルは最先端の予測性能を提供し、既存のANNモデルよりも優れ、必要なネットワークパラメータの数を劇的に削減します。
論文参考訳（メタデータ） (2021-09-24T15:55:31Z)
Attentional Prototype Inference for Few-Shot Segmentation [128.45753577331422]
数発のセグメンテーションのための確率的潜在変数フレームワークである注意型プロトタイプ推論(API)を提案する。我々は各オブジェクトカテゴリのプロトタイプを表現するためにグローバル潜在変数を定義し、確率分布としてモデル化する。我々は4つのベンチマークで広範な実験を行い、提案手法は最先端のプロトタイプベースの手法よりも、少なくとも競争力があり、しばしば優れた性能が得られる。
論文参考訳（メタデータ） (2021-05-14T06:58:44Z)
Generative Counterfactuals for Neural Networks via Attribute-Informed Perturbation [51.29486247405601]
AIP(Attribute-Informed Perturbation)の提案により,生データインスタンスの反事実を生成するフレームワークを設計する。異なる属性を条件とした生成モデルを利用することで、所望のラベルとの反事実を効果的かつ効率的に得ることができる。実世界のテキストや画像に対する実験結果から, 設計したフレームワークの有効性, サンプル品質, および効率が示された。
論文参考訳（メタデータ） (2021-01-18T08:37:13Z)
Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文参考訳（メタデータ） (2020-11-06T12:17:01Z)
Interpretable Representations in Explainable AI: From Theory to Practice [7.031336702345381]
解釈可能な表現は、ブラックボックス予測システムをターゲットにした多くの説明器のバックボーンである。人間の理解可能な概念の存在と欠如をエンコードする解釈可能な表現の特性について検討する。
論文参考訳（メタデータ） (2020-08-16T21:44:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。