論文の概要: Interpreting intermediate convolutional layers in unsupervised acoustic
word classification
- arxiv url: http://arxiv.org/abs/2110.02375v1
- Date: Tue, 5 Oct 2021 21:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:16:55.527904
- Title: Interpreting intermediate convolutional layers in unsupervised acoustic
word classification
- Title(参考訳): 教師なし音響単語分類における中間畳み込み層解釈
- Authors: Ga\v{s}per Begu\v{s}, Alan Zhou
- Abstract要約: 本稿では、教師なし深層畳み込みニューラルネットワークの中間層を可視化し、解釈する手法を提案する。
GANベースのアーキテクチャ(ciwGAN arXiv:2006.02951)はTIMITの未ラベルのスライスされた語彙で訓練された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding how deep convolutional neural networks classify data has been
subject to extensive research. This paper proposes a technique to visualize and
interpret intermediate layers of unsupervised deep convolutional neural
networks by averaging over individual feature maps in each convolutional layer
and inferring underlying distributions of words with non-linear regression
techniques. A GAN-based architecture (ciwGAN arXiv:2006.02951) that includes
three convolutional networks (a Generator, a Discriminator, and a classifier)
was trained on unlabeled sliced lexical items from TIMIT. The training results
in a deep convolutional network that learns to classify words into discrete
classes only from the requirement of the Generator to output informative data.
The classifier network has no access to the training data -- only to the
generated data -- which means lexical learning needs to emerge in a fully
unsupervised manner. We propose a technique to visualize individual
convolutional layers in the classifier that yields highly informative
time-series data for each convolutional layer and apply it to unobserved test
data. Using non-linear regression, we infer underlying distributions for each
word which allows us to analyze both absolute values and shapes of individual
words at different convolutional layers as well as perform hypothesis testing
on their acoustic properties. The technique also allows us to tests individual
phone contrasts and how they are represented at each layer.
- Abstract(参考訳): 深層畳み込みニューラルネットワークがいかにデータを分類するかを理解することは、広範な研究の対象となっている。
本稿では,各畳み込み層における個々の特徴写像を平均化し,非線形回帰手法を用いて単語の下位分布を推定することにより,教師なし深層畳み込みニューラルネットワークの中間層を可視化・解釈する手法を提案する。
GANベースのアーキテクチャ(ciwGAN arXiv:2006.02951)は、3つの畳み込みネットワーク(ジェネレータ、ディスクリミネータ、分類器)を含む、TIMITの未ラベルの語彙項目で訓練された。
トレーニングの結果、単語を個別のクラスに分類する深層畳み込みネットワークが生成者の要求によってのみ学習され、情報データを出力する。
分類器ネットワークは、トレーニングデータ(生成されたデータのみ)にアクセスできないため、語彙学習は完全に教師なしでなければならない。
分類器内の個々の畳み込み層を可視化する手法を提案し,畳み込み層毎に高度に有意な時系列データを生成し,非観測テストデータに適用する。
非線形回帰を用いて各単語の基底分布を推定し,各単語の絶対値と形状を異なる畳み込み層で解析し,その音響特性について仮説実験を行う。
この技術により、個々の電話のコントラストと、それらが各層でどのように表現されるかをテストすることもできる。
関連論文リスト
- Hidden Classification Layers: Enhancing linear separability between
classes in neural networks layers [0.0]
トレーニング手法の深層ネットワーク性能への影響について検討する。
本稿では,全てのネットワークレイヤの出力を含むエラー関数を誘導するニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-09T10:52:49Z) - The SVD of Convolutional Weights: A CNN Interpretability Framework [3.5783190448496343]
本稿では,ハイパーグラフを用いてクラス分離をモデル化する手法を提案する。
ネットワークを説明するためにアクティベーションを見るのではなく、各線形層に対して最大の対応する特異値を持つ特異ベクトルを用いて、ネットワークにとって最も重要な特徴を識別する。
論文 参考訳(メタデータ) (2022-08-14T18:23:02Z) - Do We Really Need a Learnable Classifier at the End of Deep Neural
Network? [118.18554882199676]
本研究では、ニューラルネットワークを学習して分類器をランダムにETFとして分類し、訓練中に固定する可能性について検討する。
実験結果から,バランスの取れたデータセットの画像分類において,同様の性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-17T04:34:28Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Interpreting intermediate convolutional layers of CNNs trained on raw
speech [0.0]
各畳み込み層におけるReLUアクティベーション後の特徴マップを平均すると、解釈可能な時系列データが得られることを示す。
提案手法は中間畳み込み層の音響解析を可能にする。
論文 参考訳(メタデータ) (2021-04-19T17:52:06Z) - SparseGAN: Sparse Generative Adversarial Network for Text Generation [8.634962333084724]
本稿では,識別器への入力として,意味解釈可能ながスパース文表現を生成するスパースGANを提案する。
このような意味豊かな表現により、効率の良い対人訓練のための不要なノイズを低減できるだけでなく、学習過程全体を完全に差別化できる。
論文 参考訳(メタデータ) (2021-03-22T04:44:43Z) - Learning from Incomplete Features by Simultaneous Training of Neural
Networks and Sparse Coding [24.3769047873156]
本稿では,不完全な特徴を持つデータセット上で分類器を訓練する問題に対処する。
私たちは、各データインスタンスで異なる機能のサブセット(ランダムまたは構造化)が利用できると仮定します。
新しい教師付き学習法が開発され、サンプルあたりの機能のサブセットのみを使用して、一般的な分類器を訓練する。
論文 参考訳(メタデータ) (2020-11-28T02:20:39Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。