論文の概要: Deep Sound Change: Deep and Iterative Learning, Convolutional Neural
Networks, and Language Change
- arxiv url: http://arxiv.org/abs/2011.05463v2
- Date: Wed, 22 Sep 2021 04:59:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:58:23.526634
- Title: Deep Sound Change: Deep and Iterative Learning, Convolutional Neural
Networks, and Language Change
- Title(参考訳): Deep Sound Change: 深層的かつ反復的な学習、畳み込みニューラルネットワーク、言語変化
- Authors: Ga\v{s}per Begu\v{s}
- Abstract要約: 本稿では,深層学習と反復学習を組み合わせた音響変化をモデル化するための枠組みを提案する。
音響変化のいくつかの性質は、提案されたアーキテクチャから生じると論じている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a framework for modeling sound change that combines deep
learning and iterative learning. Acquisition and transmission of speech is
modeled by training generations of Generative Adversarial Networks (GANs) on
unannotated raw speech data. The paper argues that several properties of sound
change emerge from the proposed architecture. GANs (Goodfellow et al. 2014
arXiv:1406.2661, Donahue et al. 2019 arXiv:1705.07904) are uniquely appropriate
for modeling language change because the networks are trained on raw
unsupervised acoustic data, contain no language-specific features and, as
argued in Begu\v{s} (2020 arXiv:2006.03965), encode phonetic and phonological
representations in their latent space and generate linguistically informative
innovative data. The first generation of networks is trained on the relevant
sequences in human speech from TIMIT. The subsequent generations are not
trained on TIMIT, but on generated outputs from the previous generation and
thus start learning from each other in an iterative learning task. The initial
allophonic distribution is progressively being lost with each generation,
likely due to pressures from the global distribution of aspiration in the
training data. The networks show signs of a gradual shift in phonetic targets
characteristic of a gradual phonetic sound change. At endpoints, the outputs
superficially resemble a phonological change -- rule loss.
- Abstract(参考訳): 本稿では,ディープラーニングと反復学習を組み合わせた音響変化のモデル化フレームワークを提案する。
音声の獲得と伝達は、無注釈の生音声データに基づいてGAN(Generative Adversarial Networks)の世代を訓練することによってモデル化される。
論文は、提案したアーキテクチャから音質変化のいくつかの特性が現れると主張している。
gans (goodfellow et al. 2014 arxiv:1406.2661, donahue et al. 2019 arxiv:1705.07904) は、ネットワークが生の教師なしの音響データで訓練され、言語固有の特徴がなく、begu\v{s} (2020 arxiv:2006.03965) で主張されているように、言語変化のモデル化に特有のものである。
第1世代のネットワークは、timitによる人間の発話の関連シーケンスで訓練される。
その後の世代はTIMITではなく、前世代から生成された出力に基づいて訓練され、反復学習タスクで互いに学習を始める。
初期アロフォニック分布は、訓練データにおける願望のグローバル分布からの圧力により、世代ごとに徐々に失われていく。
ネットワークは、徐々に音韻変化の特徴である音韻目標の段階的な変化の兆候を示す。
エンドポイントでは、出力は音韻的変化 -- 規則損失 -- に似ています。
関連論文リスト
- Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Train & Constrain: Phonologically Informed Tongue-Twister Generation from Topics and Paraphrases [24.954896926774627]
大言語モデル(LLM)から音韻的に情報を得た舌ねじれ音を生成するパイプラインを提案する。
生成されたデータセットに基づいてトレーニングした小型モデルの自動評価と人的評価の結果を示す。
本稿では,自動回帰言語モデルに統合可能な,音素認識型制約付き復号モジュール(PACD)を提案する。
論文 参考訳(メタデータ) (2024-03-20T18:13:17Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Articulation GAN: Unsupervised modeling of articulatory learning [6.118463549086599]
本稿では,Articulatory Generatorをジェネレーティブアドリアネットワークパラダイムに導入する。
別個の事前学習された物理モデルは、生成されたEMA表現を音声波形に変換する。
生成したEMA表現の調音解析は、音声生成中に人間の調音を忠実に追従する方法で、ネットワークが調音器を制御することを学習していることを示唆している。
論文 参考訳(メタデータ) (2022-10-27T05:07:04Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z) - Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks [0.0]
音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供することができる。
本稿では, 音声の獲得を, 生成適応型ネットワークアーキテクチャにおけるランダム空間と生成した音声データ間の依存性としてモデル化することができることを論じる。
本稿では,音韻的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
論文 参考訳(メタデータ) (2020-06-06T20:31:23Z) - CiwGAN and fiwGAN: Encoding information in acoustic data to model
lexical learning with Generative Adversarial Networks [0.0]
語彙学習は、ディープニューラルネットワークにデータを出力させるアーキテクチャの創発体としてモデル化される。
TIMITの辞書項目で訓練されたネットワークは、辞書項目に対応するユニークな情報を、その潜在空間におけるカテゴリ変数の形で符号化することを学ぶ。
ネットワークで学習した音声と音韻の表現は、生産的に組み換えられ、人間の発話の生産性と直接的に平行にできることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。