論文の概要: Untangling in Invariant Speech Recognition
- arxiv url: http://arxiv.org/abs/2003.01787v1
- Date: Tue, 3 Mar 2020 20:48:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 22:34:43.865984
- Title: Untangling in Invariant Speech Recognition
- Title(参考訳): 不変音声認識におけるアンタングリング
- Authors: Cory Stephenson, Jenelle Feather, Suchismita Padhy, Oguz Elibol,
Hanlin Tang, Josh McDermott, SueYeon Chung
- Abstract要約: 我々は、音声を認識するために訓練されたニューラルネットワークの中で、情報を解き放つ方法を研究する。
話者固有のニュアンス変動はネットワーク階層によって排除されるのに対し、タスク関連特性は後続の層で解消される。
計算の各段階におけるタスク関連特徴を効率よく抽出することにより,深部表現が時間的アンハングリングを行うことがわかった。
- 参考スコア(独自算出の注目度): 17.996356271398295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encouraged by the success of deep neural networks on a variety of visual
tasks, much theoretical and experimental work has been aimed at understanding
and interpreting how vision networks operate. Meanwhile, deep neural networks
have also achieved impressive performance in audio processing applications,
both as sub-components of larger systems and as complete end-to-end systems by
themselves. Despite their empirical successes, comparatively little is
understood about how these audio models accomplish these tasks. In this work,
we employ a recently developed statistical mechanical theory that connects
geometric properties of network representations and the separability of classes
to probe how information is untangled within neural networks trained to
recognize speech. We observe that speaker-specific nuisance variations are
discarded by the network's hierarchy, whereas task-relevant properties such as
words and phonemes are untangled in later layers. Higher level concepts such as
parts-of-speech and context dependence also emerge in the later layers of the
network. Finally, we find that the deep representations carry out significant
temporal untangling by efficiently extracting task-relevant features at each
time step of the computation. Taken together, these findings shed light on how
deep auditory models process time dependent input signals to achieve invariant
speech recognition, and show how different concepts emerge through the layers
of the network.
- Abstract(参考訳): 様々な視覚タスクにおけるディープニューラルネットワークの成功によって、多くの理論的および実験的研究が視覚ネットワークの動作の理解と解釈を目的としている。
一方、ディープニューラルネットワークは、より大きなシステムのサブコンポーネントや、それ自体で完全なエンドツーエンドシステムとして、オーディオ処理アプリケーションでも優れたパフォーマンスを実現している。
経験的な成功にもかかわらず、これらのオーディオモデルがどのようにこれらのタスクを達成するかについては、比較的理解されていない。
本研究では,ネットワーク表現の幾何学的性質とクラス分離性を結びつける統計力学理論を用いて,音声認識を訓練したニューラルネットワーク内で情報がどのように絡み合っていないかを探究する。
話者固有のニュアンス変動はネットワーク階層によって排除されるのに対し、単語や音素などのタスク関連特性は後続の層で解消される。
部分分割やコンテキスト依存といった高レベルな概念も、ネットワークの後期層に現れる。
最後に,計算の各段階におけるタスク関連特徴を効率よく抽出することにより,深部表現が時間的アンハングリングを行うことを示す。
これらの結果は、深層聴覚モデルがどのように時間依存入力信号を処理し、不変な音声認識を実現し、ネットワークの層を通して異なる概念が現れるかを示す。
関連論文リスト
- Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Understanding attention-based encoder-decoder networks: a case study with chess scoresheet recognition [0.36832029288386137]
本研究では,手書きチェスのスコアシートを読み取るための注意機構を備えたエンコーダ・デコーダ・リカレントニューラルネットワークについて検討する。
本稿では,3つのサブタスク,すなわち入力出力アライメント,シーケンシャルパターン認識,手書き文字認識を特徴付ける。
このような知識は、ネットワークを適切にトレーニングする要因のバランスを改善する上で有効である、と私たちは主張する。
論文 参考訳(メタデータ) (2024-04-23T16:23:18Z) - Deep Neural Networks for Automatic Speaker Recognition Do Not Learn
Supra-Segmental Temporal Features [2.724035499453558]
本稿では,話者認識のための最先端ニューラルネットワークの性能が,SSTのモデル化によってどの程度説明できるかを定量化するための新しいテストを提案し,適用する。
話者認識のための様々なCNNおよびRNNベースのニューラルネットワークアーキテクチャは、強制してもSSTを十分な程度にモデル化していない。
論文 参考訳(メタデータ) (2023-11-01T12:45:31Z) - Provable Guarantees for Nonlinear Feature Learning in Three-Layer Neural
Networks [49.808194368781095]
3層ニューラルネットワークは,2層ネットワークよりも特徴学習能力が豊富であることを示す。
この研究は、特徴学習体制における2層ネットワーク上の3層ニューラルネットワークの証明可能なメリットを理解するための前進である。
論文 参考訳(メタデータ) (2023-05-11T17:19:30Z) - The Multiple Subnetwork Hypothesis: Enabling Multidomain Learning by
Isolating Task-Specific Subnetworks in Feedforward Neural Networks [0.0]
我々は,未使用の重み付きネットワークがその後のタスクを学習するための方法論とネットワーク表現構造を同定する。
提案手法を用いてトレーニングされたネットワークは,タスクのパフォーマンスを犠牲にすることなく,あるいは破滅的な忘れを伴わずに,複数のタスクを学習できることを示す。
論文 参考訳(メタデータ) (2022-07-18T15:07:13Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Understanding the Role of Individual Units in a Deep Neural Network [85.23117441162772]
本稿では,画像分類と画像生成ネットワーク内の隠れ単位を系統的に同定する分析フレームワークを提案する。
まず、シーン分類に基づいて訓練された畳み込みニューラルネットワーク(CNN)を分析し、多様なオブジェクト概念にマッチするユニットを発見する。
第2に、シーンを生成するために訓練されたGANモデルについて、同様の分析手法を用いて分析する。
論文 参考訳(メタデータ) (2020-09-10T17:59:10Z) - Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks [0.0]
音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供することができる。
本稿では, 音声の獲得を, 生成適応型ネットワークアーキテクチャにおけるランダム空間と生成した音声データ間の依存性としてモデル化することができることを論じる。
本稿では,音韻的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
論文 参考訳(メタデータ) (2020-06-06T20:31:23Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。