論文の概要: What do End-to-End Speech Models Learn about Speaker, Language and
Channel Information? A Layer-wise and Neuron-level Analysis
- arxiv url: http://arxiv.org/abs/2107.00439v1
- Date: Thu, 1 Jul 2021 13:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:38:18.961033
- Title: What do End-to-End Speech Models Learn about Speaker, Language and
Channel Information? A Layer-wise and Neuron-level Analysis
- Title(参考訳): 話者・言語・チャンネル情報についてエンド・ツー・エンド音声モデルは何を学ぶか
層状及びニューロンレベルの解析
- Authors: Shammur Absar Chowdhury, Nadir Durrani, Ahmed Ali
- Abstract要約: 我々は、ディープスピーチモデル内で訓練された表現を、話者認識、方言識別、マスキング信号の再構成といったタスクに向けて分析する。
我々は、この情報は学習した表現でキャプチャされているか?どこに保存されているのか?どのように分散されているのか?そして、この情報を利用する最小限のネットワークサブセットを特定できるのかを調査する。
その結果, (i) チャネル情報と性別情報が一様であり, (ii) 方言情報のような余分に分散された (ii) 複雑な特性は, タスク指向の事前学習ネットワークでのみ符号化され, 上位層に局所化されていることがわかった。
- 参考スコア(独自算出の注目度): 17.308437522191237
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: End-to-end DNN architectures have pushed the state-of-the-art in speech
technologies, as well as in other spheres of AI, leading researchers to train
more complex and deeper models. These improvements came at the cost of
transparency. DNNs are innately opaque and difficult to interpret. We no longer
understand what features are learned, where they are preserved, and how they
inter-operate. Such an analysis is important for better model understanding,
debugging and to ensure fairness in ethical decision making. In this work, we
analyze the representations trained within deep speech models, towards the task
of speaker recognition, dialect identification and reconstruction of masked
signals. We carry a layer- and neuron-level analysis on the utterance-level
representations captured within pretrained speech models for speaker, language
and channel properties. We study: is this information captured in the learned
representations? where is it preserved? how is it distributed? and can we
identify a minimal subset of network that posses this information. Using
diagnostic classifiers, we answered these questions. Our results reveal: (i)
channel and gender information is omnipresent and is redundantly distributed
(ii) complex properties such as dialectal information is encoded only in the
task-oriented pretrained network and is localised in the upper layers (iii) a
minimal subset of neurons can be extracted to encode the predefined property
(iv) salient neurons are sometimes shared between properties and can highlights
presence of biases in the network. Our cross-architectural comparison indicates
that (v) the pretrained models captures speaker-invariant information and (vi)
the pretrained CNNs models are competitive to the Transformers for encoding
information for the studied properties. To the best of our knowledge, this is
the first study to investigate neuron analysis on the speech models.
- Abstract(参考訳): エンドツーエンドのDNNアーキテクチャは、音声技術やAIの他の分野の最先端を推し進めており、研究者たちはより複雑でより深いモデルをトレーニングしている。
これらの改善は透明性の犠牲となった。
DNNは本質的に不透明で解釈が難しい。
もはや、どんな機能が学習され、どこに保存され、どのように相互運用されるかは理解できません。
このような分析は、モデル理解、デバッグ、倫理的意思決定における公平性を確保するために重要である。
本研究では, ディープ音声モデル内で訓練された表現を, 話者認識, 方言識別, マスキング信号の再構成のタスクに向けて分析する。
話者・言語・チャネル特性の事前学習音声モデルにおける発話レベル表現の層・ニューロンレベルでの分析を行う。
この情報は学習した表現で捉えられるか?
どこに保存されている?
どのように分散されているか?
この情報を利用するネットワークの 最小限のサブセットを特定できます
診断分類器を用いてこれらの質問に答えた。
以上の結果から, (i) チャネル情報と性別情報が一様であり, (ii) 方言情報などの複雑な特性がタスク指向の事前学習ネットワークにのみ符号化され, (iii) 上位層に局在しているニューロンの最小サブセットを抽出して, 予め定義された性質(iv) サルエントニューロンが特性間で共有されることがあり, ネットワーク内のバイアスの存在を強調できる。
我々のクロスアーキテクチャ比較は, (v) 事前学習したモデルが話者不変情報をキャプチャし, (vi) 事前学習したCNNがトランスフォーマーと競合し, 研究対象の情報を符号化することを示す。
私たちの知る限りでは、これは音声モデルのニューロン解析を研究する最初の研究である。
関連論文リスト
- Seeing in Words: Learning to Classify through Language Bottlenecks [59.97827889540685]
人間は簡潔で直感的な説明を使って予測を説明することができる。
特徴表現がテキストである視覚モデルでは,画像ネットイメージを効果的に分類できることを示す。
論文 参考訳(メタデータ) (2023-06-29T00:24:42Z) - Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。
我々のデータ駆動量分析は興味深い発見を照らす。
我々のコードはNeuroXツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-06-27T13:31:49Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Visualising and Explaining Deep Learning Models for Speech Quality
Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。
畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文 参考訳(メタデータ) (2021-12-12T12:50:03Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Analyzing Individual Neurons in Pre-trained Language Models [41.07850306314594]
言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
論文 参考訳(メタデータ) (2020-10-06T13:17:38Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。