Fugu-MT 論文翻訳(概要): Interpreting intermediate convolutional layers of CNNs trained on raw speech

論文の概要: Interpreting intermediate convolutional layers of CNNs trained on raw speech

arxiv url: http://arxiv.org/abs/2104.09489v2
Date: Wed, 21 Apr 2021 17:43:29 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-22 11:19:14.285958
Title: Interpreting intermediate convolutional layers of CNNs trained on raw speech
Title（参考訳）: 生音声で学習したCNNの中間畳み込み層の解析
Authors: Ga\v{s}per Begu\v{s} and Alan Zhou
Abstract要約: 各畳み込み層におけるReLUアクティベーション後の特徴マップを平均すると、解釈可能な時系列データが得られることを示す。提案手法は中間畳み込み層の音響解析を可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a technique to interpret and visualize intermediate layers in CNNs trained on raw speech data in an unsupervised manner. We show that averaging over feature maps after ReLU activation in each convolutional layer yields interpretable time-series data. The proposed technique enables acoustic analysis of intermediate convolutional layers. To uncover how meaningful representation in speech gets encoded in intermediate layers of CNNs, we manipulate individual latent variables to marginal levels outside of the training range. We train and probe internal representations on two models -- a bare WaveGAN architecture and a ciwGAN extension which forces the Generator to output informative data and results in emergence of linguistically meaningful representations. Interpretation and visualization is performed for three basic acoustic properties of speech: periodic vibration (corresponding to vowels), aperiodic noise vibration (corresponding to fricatives), and silence (corresponding to stops). We also argue that the proposed technique allows acoustic analysis of intermediate layers that parallels the acoustic analysis of human speech data: we can extract F0, intensity, duration, formants, and other acoustic properties from intermediate layers in order to test where and how CNNs encode various types of information. The models are trained on two speech processes with different degrees of complexity: a simple presence of [s] and a computationally complex presence of reduplication (copied material). Observing the causal effect between interpolation and the resulting changes in intermediate layers can reveal how individual variables get transformed into spikes in activation in intermediate layers. Using the proposed technique, we can analyze how linguistically meaningful units in speech get encoded in different convolutional layers.
Abstract（参考訳）: 本稿では,生音声データで学習したcnnの中間層を教師なしで解釈・可視化する手法を提案する。各畳み込み層におけるReLU活性化後の特徴写像の平均値が解釈可能な時系列データを生成することを示す。提案手法は中間畳み込み層の音響解析を可能にする。 cnnの中間層にいかに有意義な表現がエンコードされるかを明らかにするために、我々は個々の潜在変数をトレーニング範囲外の限界レベルまで操作する。我々は、素のWaveGANアーキテクチャとciwGAN拡張という2つのモデルで内部表現を訓練し、調査する。音声の3つの基本音響特性(周期的振動(母音に対応する)、非周期的雑音振動(摩擦に対応する)、沈黙(停止に対応する)について解釈と可視化を行う。また,提案手法は,人間の音声データの音響解析と並行する中間層の音響解析を可能にする。中間層からf0,強度,持続時間,フォルマント,その他の音響特性を抽出し,cnnが様々な情報の符号化場所と方法をテストする。モデルは、単純な[s]の存在と、計算的に複雑な再帰的存在(複写材料)という、複雑さの度合いの異なる2つの音声プロセスに基づいて訓練される。補間と中間層の変化の間の因果効果を観察することで、個々の変数が中間層における活性化のスパイクにどのように変換されるかを明らかにすることができる。提案手法を用いて,言語的に有意味な単位が異なる畳み込み層にどのようにエンコードされるかを分析することができる。

関連論文リスト

Exploring the encoding of linguistic representations in the Fully-Connected Layer of generative CNNs for Speech [0.0]
本研究は,音声合成のためのCNNの完全連結層が言語関連情報をエンコードする方法を初めて明らかにした。本研究は,CNN(ciwGAN)における語彙的特異な潜伏符号が,FC層重みの語彙的不変な部分語彙表現を共有していることを示す。
論文参考訳（メタデータ） (2025-01-13T22:24:52Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
A knowledge-driven vowel-based approach of depression classification from speech using data augmentation [10.961439164833891]
音声からの抑うつを識別する新しい機械学習モデルを提案する。提案手法はまず,局所レベルにおける可変長発話を固定サイズの母音ベース埋め込みにモデル化する。うつ病は、別の1D CNNの入力として機能する母音CNN埋め込みのグループから世界レベルで分類される。
論文参考訳（メタデータ） (2022-10-27T08:34:08Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文参考訳（メタデータ） (2022-04-01T14:25:19Z)
1-D CNN based Acoustic Scene Classification via Reducing Layer-wise Dimensionality [2.5382095320488665]
本稿では、音響シーン分類(ASC)において一般的に使用される時間周波数表現と交互に表現する枠組みを提案する。生音声信号は、各種中間層を用いて予め訓練された畳み込みニューラルネットワーク(CNN)を用いて表現される。提案手法は時間周波数表現に基づく手法よりも優れている。
論文参考訳（メタデータ） (2022-03-31T02:00:31Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Interpreting intermediate convolutional layers in unsupervised acoustic word classification [0.0]
本稿では、教師なし深層畳み込みニューラルネットワークの中間層を可視化し、解釈する手法を提案する。 GANベースのアーキテクチャ(ciwGAN arXiv:2006.02951)はTIMITの未ラベルのスライスされた語彙で訓練された。
論文参考訳（メタデータ） (2021-10-05T21:53:32Z)
What do End-to-End Speech Models Learn about Speaker, Language and Channel Information? A Layer-wise and Neuron-level Analysis [16.850888973106706]
本稿では,事前学習した音声モデルの探索フレームワークを用いたポストホック機能解析を行う。話者認識や方言識別といった様々なタスクのために訓練された音声モデルの発話レベル表現を解析する。 i) チャネル情報と性別情報はネットワーク全体に分散され,i) 情報はタスクに関してニューロンで冗長に利用可能であり,iv) 弁証情報などの複雑な特性はタスク指向の事前学習ネットワークでのみ符号化される。
論文参考訳（メタデータ） (2021-07-01T13:32:55Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
Local and non-local dependency learning and emergence of rule-like representations in speech data by Deep Convolutional Generative Adversarial Networks [0.0]
本稿では、音声データにおける局所的および非局所的依存関係に対するGANのトレーニングは、ディープニューラルネットワークが連続データをどのように識別するかについての洞察を与える。
論文参考訳（メタデータ） (2020-09-27T00:02:34Z)
Temporal-Spatial Neural Filter: Direction Informed End-to-End Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。主な課題は、複雑な音響環境とリアルタイム処理の要件である。複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文参考訳（メタデータ） (2020-01-02T11:12:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。