論文の概要: An Explainable Proxy Model for Multiabel Audio Segmentation
- arxiv url: http://arxiv.org/abs/2401.08268v2
- Date: Wed, 17 Jan 2024 13:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 11:14:51.676986
- Title: An Explainable Proxy Model for Multiabel Audio Segmentation
- Title(参考訳): マルチアベル音声セグメンテーションのための説明可能なプロキシモデル
- Authors: Th\'eo Mariotte and Antonio Almud\'evar and Marie Tahon and Alfonso
Ortega
- Abstract要約: 音声活動(SAD)、音楽(MD)、ノイズ(ND)、重畳音声検出(OSD)を同時に解くための説明可能なマルチラベルセグメンテーションモデルを提案する。
2つのデータセットで実施された実験は、トレーニング済みのブラックボックスモデルと同様のパフォーマンスを示しながら、強い説明可能性を示している。
- 参考スコア(独自算出の注目度): 1.7611027732647493
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio signal segmentation is a key task for automatic audio indexing. It
consists of detecting the boundaries of class-homogeneous segments in the
signal. In many applications, explainable AI is a vital process for
transparency of decision-making with machine learning. In this paper, we
propose an explainable multilabel segmentation model that solves speech
activity (SAD), music (MD), noise (ND), and overlapped speech detection (OSD)
simultaneously. This proxy uses the non-negative matrix factorization (NMF) to
map the embedding used for the segmentation to the frequency domain.
Experiments conducted on two datasets show similar performances as the
pre-trained black box model while showing strong explainability features.
Specifically, the frequency bins used for the decision can be easily identified
at both the segment level (local explanations) and global level (class
prototypes).
- Abstract(参考訳): 音声信号のセグメンテーションは自動音声インデクシングの重要なタスクである。
信号中のクラス均質セグメントの境界を検出することで構成される。
多くのアプリケーションにおいて、説明可能なAIは、機械学習による意思決定の透明性にとって重要なプロセスである。
本稿では、音声活動(SAD)、音楽(MD)、ノイズ(ND)、重複音声検出(OSD)を同時に解くための説明可能なマルチラベルセグメンテーションモデルを提案する。
このプロキシは非負行列分解(NMF)を使用してセグメンテーションに使用される埋め込みを周波数領域にマッピングする。
2つのデータセットで実施された実験は、トレーニング済みのブラックボックスモデルと同様のパフォーマンスを示しながら、強い説明可能性を示している。
具体的には、決定に使用される周波数ビンは、セグメントレベル(ローカル説明)とグローバルレベル(クラスプロトタイプ)の両方で容易に識別できる。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete
Diffusion Process [102.18226145874007]
そこで我々は,異なるセグメンテーションモデルによって生成されるオブジェクトマスクの品質を高めるために,SegRefinerと呼ばれるモデルに依存しないソリューションを提案する。
SegRefinerは粗いマスクを入力として取り、離散拡散プロセスを用いてそれらを洗練する。
さまざまな種類の粗いマスクにわたるセグメンテーションメトリックとバウンダリメトリックの両方を一貫して改善する。
論文 参考訳(メタデータ) (2023-12-19T18:53:47Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文 参考訳(メタデータ) (2023-05-11T20:50:51Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - Towards unsupervised phone and word segmentation using self-supervised
vector-quantized neural networks [36.23526776206862]
音声のセグメンテーションとクラスタリングを、監視せずに低ビット電話ライクなシーケンスに分類する。
我々は、連続した特徴ベクトルのブロックが同一コードに割り当てられるように、予め訓練された自己教師付きベクトル量子化(VQ)ニューラルネットワークを特に制約する。
論文 参考訳(メタデータ) (2020-12-14T14:17:33Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。