論文の概要: X-DC: Explainable Deep Clustering based on Learnable Spectrogram
Templates
- arxiv url: http://arxiv.org/abs/2009.08661v3
- Date: Mon, 19 Apr 2021 06:53:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 03:25:39.900004
- Title: X-DC: Explainable Deep Clustering based on Learnable Spectrogram
Templates
- Title(参考訳): x-dc:学習可能なスペクトログラムテンプレートに基づく深層クラスタリング
- Authors: Chihiro Watanabe, Hirokazu Kameoka
- Abstract要約: 本稿では、学習可能なスペクトログラムテンプレートを入力スペクトログラムに適合させるプロセスとしてネットワークアーキテクチャを解釈できる、説明可能なディープクラスタリング(X-DC)の概念を提案する。
提案したX-DCにより,元のDCモデルに匹敵する音声分離性能を達成しつつ,モデルが埋め込みベクトルを決定するための手がかりを可視化し,理解することができることを示す。
- 参考スコア(独自算出の注目度): 17.83563578034567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have achieved substantial predictive performance
in various speech processing tasks. Particularly, it has been shown that a
monaural speech separation task can be successfully solved with a DNN-based
method called deep clustering (DC), which uses a DNN to describe the process of
assigning a continuous vector to each time-frequency (TF) bin and measure how
likely each pair of TF bins is to be dominated by the same speaker. In DC, the
DNN is trained so that the embedding vectors for the TF bins dominated by the
same speaker are forced to get close to each other. One concern regarding DC is
that the embedding process described by a DNN has a black-box structure, which
is usually very hard to interpret. The potential weakness owing to the
non-interpretable black-box structure is that it lacks the flexibility of
addressing the mismatch between training and test conditions (caused by
reverberation, for instance). To overcome this limitation, in this paper, we
propose the concept of explainable deep clustering (X-DC), whose network
architecture can be interpreted as a process of fitting learnable spectrogram
templates to an input spectrogram followed by Wiener filtering. During
training, the elements of the spectrogram templates and their activations are
constrained to be non-negative, which facilitates the sparsity of their values
and thus improves interpretability. The main advantage of this framework is
that it naturally allows us to incorporate a model adaptation mechanism into
the network thanks to its physically interpretable structure. We experimentally
show that the proposed X-DC enables us to visualize and understand the clues
for the model to determine the embedding vectors while achieving speech
separation performance comparable to that of the original DC models.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、様々な音声処理タスクにおいてかなりの予測性能を達成した。
特に,各時間周波数(TF)ビンに連続ベクトルを割り当てるプロセスを記述するために,DNNを用いたディープクラスタリング(DC)と呼ばれるDNNベースの手法を用いて,一対のTFビンが同じ話者によって支配される確率を測定することで,単調音声分離タスクをうまく解くことが可能であることが示されている。
DCでは、DNNは、同じ話者が支配するTFビンの埋め込みベクトルが互いに近づくように訓練される。
DCに関する懸念の1つは、DNNによって記述された埋め込みプロセスがブラックボックス構造であり、通常は解釈が難しいことである。
非解釈可能なブラックボックス構造による潜在的な弱点は、トレーニングとテスト条件(例えば残響による)のミスマッチに対処する柔軟性がないことである。
本稿では,この制限を克服するために,ネットワークアーキテクチャを学習可能なスペクトログラムテンプレートをWenerフィルタに適合させるプロセスとして解釈できる,説明可能なディープクラスタリング(X-DC)の概念を提案する。
トレーニング中、スペクトログラムテンプレートとそのアクティベーションの要素は非負であると制約され、それによって値のスパーシリティが促進され、解釈可能性が改善される。
このフレームワークの主な利点は、物理的に解釈可能な構造のおかげで、自然にモデル適応メカニズムをネットワークに組み込むことができることです。
提案したX-DCにより,元のDCモデルに匹敵する音声分離性能を達成しつつ,モデルが埋め込みベクトルを決定する手がかりを可視化し,理解することができることを示す。
関連論文リスト
- Learning local discrete features in explainable-by-design convolutional neural networks [0.0]
本稿では,側方抑制機構に基づくCNN(Design-by-Design Convolutional Neural Network)を提案する。
このモデルは、残留または高密度のスキップ接続を持つ高精度CNNである予測器で構成されている。
観測を収集し,直接確率を計算することにより,隣接するレベルのモチーフ間の因果関係を説明することができる。
論文 参考訳(メタデータ) (2024-10-31T18:39:41Z) - Linking in Style: Understanding learned features in deep learning models [0.0]
畳み込みニューラルネットワーク(CNN)は抽象的な特徴を学び、オブジェクト分類を行う。
本稿では,CNNにおける学習特徴を可視化し,体系的に解析する自動手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T12:28:48Z) - Using Logic Programming and Kernel-Grouping for Improving
Interpretability of Convolutional Neural Networks [1.6317061277457001]
ニューロシンボリック・フレームワークであるNeSyFOLD-GはCNNの最終層カーネルを用いてシンボリック・ルールセットを生成する。
同様のカーネルをグループ化することで,FOLD-SE-Mが生成するルールセットのサイズが大幅に小さくなることを示す。
また,ルールセット内の各述語を,対応するカーネル群が表現する意味概念とラベル付けする新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-19T18:12:49Z) - Tackling Interpretability in Audio Classification Networks with
Non-negative Matrix Factorization [2.423660247459463]
本稿では,音声処理ネットワークの解釈可能性に関する2つの主要な課題に対処する。
ポストホックな解釈では、エンドユーザーにも聴ける高レベルオーディオオブジェクトの観点から、ネットワークの判断を解釈することを目的としている。
非負行列分解(NMF)を取り入れた新しいインタプリタ設計を提案する。
論文 参考訳(メタデータ) (2023-05-11T20:50:51Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Interpreting Graph Neural Networks for NLP With Differentiable Edge
Masking [63.49779304362376]
グラフニューラルネットワーク(GNN)は、構造的帰納バイアスをNLPモデルに統合する一般的なアプローチとなっている。
本稿では,不要なエッジを識別するGNNの予測を解釈するポストホック手法を提案する。
モデルの性能を劣化させることなく,多数のエッジを落とせることを示す。
論文 参考訳(メタデータ) (2020-10-01T17:51:19Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。