論文の概要: Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks
- arxiv url: http://arxiv.org/abs/2006.03965v1
- Date: Sat, 6 Jun 2020 20:31:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:26:21.292122
- Title: Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks
- Title(参考訳): 生成的adversarial phonology:ニューラルネットワークを用いた教師なし音韻・音韻学学習のモデル化
- Authors: Ga\v{s}per Begu\v{s}
- Abstract要約: 音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供することができる。
本稿では, 音声の獲得を, 生成適応型ネットワークアーキテクチャにおけるランダム空間と生成した音声データ間の依存性としてモデル化することができることを論じる。
本稿では,音韻的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training deep neural networks on well-understood dependencies in speech data
can provide new insights into how they learn internal representations. This
paper argues that acquisition of speech can be modeled as a dependency between
random space and generated speech data in the Generative Adversarial Network
architecture and proposes a methodology to uncover the network's internal
representations that correspond to phonetic and phonological properties. The
Generative Adversarial architecture is uniquely appropriate for modeling
phonetic and phonological learning because the network is trained on
unannotated raw acoustic data and learning is unsupervised without any
language-specific assumptions or pre-assumed levels of abstraction. A
Generative Adversarial Network was trained on an allophonic distribution in
English. The network successfully learns the allophonic alternation: the
network's generated speech signal contains the conditional distribution of
aspiration duration. The paper proposes a technique for establishing the
network's internal representations that identifies latent variables that
correspond to, for example, presence of [s] and its spectral properties. By
manipulating these variables, we actively control the presence of [s] and its
frication amplitude in the generated outputs. This suggests that the network
learns to use latent variables as an approximation of phonetic and phonological
representations. Crucially, we observe that the dependencies learned in
training extend beyond the training interval, which allows for additional
exploration of learning representations. The paper also discusses how the
network's architecture and innovative outputs resemble and differ from
linguistic behavior in language acquisition, speech disorders, and speech
errors, and how well-understood dependencies in speech data can help us
interpret how neural networks learn their representations.
- Abstract(参考訳): 音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供する。
本稿では,音声の獲得を,生成型adversarial networkアーキテクチャにおけるランダム空間と生成音声データの依存性としてモデル化し,音声的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
なぜならネットワークは無注の生の音響データに基づいて訓練され、言語固有の仮定や事前に想定された抽象レベルなしで学習は教師なしであるからである。
生成的な敵ネットワークは英語のアロフォニック分布で訓練された。
ネットワークはアロフォニックな交替をうまく学習し、ネットワークが生成した音声信号は吸引継続時間の条件付き分布を含む。
本稿では,ネットワークの内部表現を確立する手法を提案し,例えば[s]の存在とそのスペクトル特性に対応する潜伏変数を同定する。
これらの変数を操作することで、生成された出力における[s]の存在とその摩擦振幅を積極的に制御する。
このことは、潜在変数を音韻および音韻表現の近似として用いることを学ぶことを示唆している。
重要なことに、トレーニングで学んだ依存関係はトレーニング間隔を超えて拡張され、学習表現のさらなる探索が可能になる。
また, 言語習得, 言語障害, 音声誤りにおける言語行動とネットワークのアーキテクチャと革新的アウトプットがどのように似ており, 音声データへの依存性が, ニューラルネットワークがどのように表現を学習するかを理解するのにどのように役立つかを論じる。
関連論文リスト
- Explaining Spectrograms in Machine Learning: A Study on Neural Networks for Speech Classification [2.4472308031704073]
本研究では,ニューラルネットワークで学習した音声の正確な分類のための識別パターンについて検討する。
母音分類のためのニューラルネットワークのアクティベーションと特徴を調べることで、スペクトログラムでネットワークが何を見るかについての洞察を得る。
論文 参考訳(メタデータ) (2024-07-10T07:37:18Z) - Coding schemes in neural networks learning classification tasks [52.22978725954347]
完全接続型広義ニューラルネットワーク学習タスクについて検討する。
ネットワークが強力なデータ依存機能を取得することを示す。
驚くべきことに、内部表現の性質は神経の非線形性に大きく依存する。
論文 参考訳(メタデータ) (2024-06-24T14:50:05Z) - Color Overmodification Emerges from Data-Driven Learning and Pragmatic
Reasoning [53.088796874029974]
話者の指示表現は、実践的な言語使用の性質を照らし出すのに役立つ方法で、コミュニケーションイデアルから逸脱していることを示す。
ニューラルネットワークを学習エージェントとして採用することにより、過度な修正は、頻度の低い、あるいは正常な環境特性に結びつく可能性が高いことを示す。
論文 参考訳(メタデータ) (2022-05-18T18:42:43Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Deep Sound Change: Deep and Iterative Learning, Convolutional Neural
Networks, and Language Change [0.0]
本稿では,深層学習と反復学習を組み合わせた音響変化をモデル化するための枠組みを提案する。
音響変化のいくつかの性質は、提案されたアーキテクチャから生じると論じている。
論文 参考訳(メタデータ) (2020-11-10T23:49:09Z) - Local and non-local dependency learning and emergence of rule-like
representations in speech data by Deep Convolutional Generative Adversarial
Networks [0.0]
本稿では、音声データにおける局所的および非局所的依存関係に対するGANのトレーニングは、ディープニューラルネットワークが連続データをどのように識別するかについての洞察を与える。
論文 参考訳(メタデータ) (2020-09-27T00:02:34Z) - CiwGAN and fiwGAN: Encoding information in acoustic data to model
lexical learning with Generative Adversarial Networks [0.0]
語彙学習は、ディープニューラルネットワークにデータを出力させるアーキテクチャの創発体としてモデル化される。
TIMITの辞書項目で訓練されたネットワークは、辞書項目に対応するユニークな情報を、その潜在空間におけるカテゴリ変数の形で符号化することを学ぶ。
ネットワークで学習した音声と音韻の表現は、生産的に組み換えられ、人間の発話の生産性と直接的に平行にできることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:33:55Z) - Untangling in Invariant Speech Recognition [17.996356271398295]
我々は、音声を認識するために訓練されたニューラルネットワークの中で、情報を解き放つ方法を研究する。
話者固有のニュアンス変動はネットワーク階層によって排除されるのに対し、タスク関連特性は後続の層で解消される。
計算の各段階におけるタスク関連特徴を効率よく抽出することにより,深部表現が時間的アンハングリングを行うことがわかった。
論文 参考訳(メタデータ) (2020-03-03T20:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。