論文の概要: CiwGAN and fiwGAN: Encoding information in acoustic data to model
lexical learning with Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2006.02951v3
- Date: Wed, 28 Jul 2021 10:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:05:59.732182
- Title: CiwGAN and fiwGAN: Encoding information in acoustic data to model
lexical learning with Generative Adversarial Networks
- Title(参考訳): CiwGANとfiwGAN: 生成逆ネットワークを用いた語彙学習のための音響データの符号化
- Authors: Ga\v{s}per Begu\v{s}
- Abstract要約: 語彙学習は、ディープニューラルネットワークにデータを出力させるアーキテクチャの創発体としてモデル化される。
TIMITの辞書項目で訓練されたネットワークは、辞書項目に対応するユニークな情報を、その潜在空間におけるカテゴリ変数の形で符号化することを学ぶ。
ネットワークで学習した音声と音韻の表現は、生産的に組み換えられ、人間の発話の生産性と直接的に平行にできることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How can deep neural networks encode information that corresponds to words in
human speech into raw acoustic data? This paper proposes two neural network
architectures for modeling unsupervised lexical learning from raw acoustic
inputs, ciwGAN (Categorical InfoWaveGAN) and fiwGAN (Featural InfoWaveGAN),
that combine a Deep Convolutional GAN architecture for audio data (WaveGAN;
arXiv:1705.07904) with an information theoretic extension of GAN -- InfoGAN
(arXiv:1606.03657), and propose a new latent space structure that can model
featural learning simultaneously with a higher level classification and allows
for a very low-dimension vector representation of lexical items. Lexical
learning is modeled as emergent from an architecture that forces a deep neural
network to output data such that unique information is retrievable from its
acoustic outputs. The networks trained on lexical items from TIMIT learn to
encode unique information corresponding to lexical items in the form of
categorical variables in their latent space. By manipulating these variables,
the network outputs specific lexical items. The network occasionally outputs
innovative lexical items that violate training data, but are linguistically
interpretable and highly informative for cognitive modeling and neural network
interpretability. Innovative outputs suggest that phonetic and phonological
representations learned by the network can be productively recombined and
directly paralleled to productivity in human speech: a fiwGAN network trained
on `suit' and `dark' outputs innovative `start', even though it never saw
`start' or even a [st] sequence in the training data. We also argue that
setting latent featural codes to values well beyond training range results in
almost categorical generation of prototypical lexical items and reveals
underlying values of each latent code.
- Abstract(参考訳): ディープニューラルネットワークは、人間の発話中の単語に対応する情報を生の音響データにエンコードできるのか?
This paper proposes two neural network architectures for modeling unsupervised lexical learning from raw acoustic inputs, ciwGAN (Categorical InfoWaveGAN) and fiwGAN (Featural InfoWaveGAN), that combine a Deep Convolutional GAN architecture for audio data (WaveGAN; arXiv:1705.07904) with an information theoretic extension of GAN -- InfoGAN (arXiv:1606.03657), and propose a new latent space structure that can model featural learning simultaneously with a higher level classification and allows for a very low-dimension vector representation of lexical items.
語彙学習は、深層ニューラルネットワークが独自の情報をその音響出力から取り出すことができるようにデータを出力させるアーキテクチャの創発体としてモデル化される。
TIMITの語彙項目で訓練されたネットワークは、語彙項目に対応するユニークな情報を潜在空間のカテゴリー変数の形で符号化することを学ぶ。
これらの変数を操作することで、ネットワークは特定の語彙アイテムを出力する。
ネットワークは時折、トレーニングデータに違反する革新的な語彙項目を出力するが、言語学的に解釈可能であり、認知モデリングやニューラルネットワークの解釈に非常に有益である。
イノベーティブなアウトプットは、ネットワークによって学習された音韻的表現と音韻的表現を生産的に再結合し、人間の音声の生産性に直接並列させることができることを示唆している:「スーツ」と「ダーク」に基づいて訓練されたfiwGANネットワークは、トレーニングデータに「スタート」や「st」シーケンスを見ることもなかったにもかかわらず、革新的な「スタート」を出力する。
また, 学習範囲をはるかに超える値に潜在性フェアトラル符号を設定すると, 典型的語彙項目がほぼカテゴリー的に生成され, 潜在性コードの基盤となる値が明らかになると主張する。
関連論文リスト
- Deep Learning for real-time neural decoding of grasp [0.0]
本稿では,ニューラルネットワークの復号化のためのDeep Learningに基づく手法を提案する。
提案手法の主な目的は、これまでの神経科学知識に頼ることなく、最先端の復号精度を改善することである。
論文 参考訳(メタデータ) (2023-11-02T08:26:29Z) - Modeling speech recognition and synthesis simultaneously: Encoding and
decoding lexical and sublexical semantic information into speech with no
direct access to speech data [0.0]
我々は,非教師付き語彙学習において最も困難な目的である,辞書項目にユニークな表現を割り当てることを学ぶ教師なしネットワークを紹介した。
語彙学習に賛成する強い証拠が現れる。
生産と知覚の原則を組み合わせたアーキテクチャは、実際のトレーニングデータにアクセスすることなく、教師なしの方法で生の音響データからユニークな情報を復号することができる。
論文 参考訳(メタデータ) (2022-03-22T06:04:34Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - FF-NSL: Feed-Forward Neural-Symbolic Learner [70.978007919101]
本稿では,Feed-Forward Neural-Symbolic Learner (FF-NSL) と呼ばれるニューラルシンボリック学習フレームワークを紹介する。
FF-NSLは、ラベル付き非構造化データから解釈可能な仮説を学習するために、Answer Setセマンティクスに基づく最先端のICPシステムとニューラルネットワークを統合する。
論文 参考訳(メタデータ) (2021-06-24T15:38:34Z) - NSL: Hybrid Interpretable Learning From Noisy Raw Data [66.15862011405882]
本稿では,ラベル付き非構造データから解釈可能なルールを学習するニューラルシンボリック学習フレームワークNSLを提案する。
NSLは、機能抽出のためのトレーニング済みニューラルネットワークと、解集合セマンティクスに基づくルール学習のための最先端のILPシステムであるFastLASを組み合わせる。
NSLは、MNISTデータから堅牢なルールを学び、ニューラルネットワークやランダムフォレストベースラインと比較して、比較または優れた精度を達成できることを実証します。
論文 参考訳(メタデータ) (2020-12-09T13:02:44Z) - Deep Sound Change: Deep and Iterative Learning, Convolutional Neural
Networks, and Language Change [0.0]
本稿では,深層学習と反復学習を組み合わせた音響変化をモデル化するための枠組みを提案する。
音響変化のいくつかの性質は、提案されたアーキテクチャから生じると論じている。
論文 参考訳(メタデータ) (2020-11-10T23:49:09Z) - Local and non-local dependency learning and emergence of rule-like
representations in speech data by Deep Convolutional Generative Adversarial
Networks [0.0]
本稿では、音声データにおける局所的および非局所的依存関係に対するGANのトレーニングは、ディープニューラルネットワークが連続データをどのように識別するかについての洞察を与える。
論文 参考訳(メタデータ) (2020-09-27T00:02:34Z) - Reservoir Memory Machines as Neural Computers [70.5993855765376]
微分可能なニューラルネットワークは、干渉することなく明示的なメモリで人工ニューラルネットワークを拡張する。
我々は、非常に効率的に訓練できるモデルを用いて、微分可能なニューラルネットワークの計算能力を実現する。
論文 参考訳(メタデータ) (2020-09-14T12:01:30Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks [0.0]
音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供することができる。
本稿では, 音声の獲得を, 生成適応型ネットワークアーキテクチャにおけるランダム空間と生成した音声データ間の依存性としてモデル化することができることを論じる。
本稿では,音韻的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
論文 参考訳(メタデータ) (2020-06-06T20:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。