論文の概要: Articulation GAN: Unsupervised modeling of articulatory learning
- arxiv url: http://arxiv.org/abs/2210.15173v1
- Date: Thu, 27 Oct 2022 05:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:03:15.088414
- Title: Articulation GAN: Unsupervised modeling of articulatory learning
- Title(参考訳): 調音gan:調音学習の教師なしモデリング
- Authors: Ga\v{s}per Begu\v{s}, Alan Zhou, Peter Wu, Gopala K Anumanchipalli
- Abstract要約: 本稿では,Articulatory Generatorをジェネレーティブアドリアネットワークパラダイムに導入する。
別個の事前学習された物理モデルは、生成されたEMA表現を音声波形に変換する。
生成したEMA表現の調音解析は、音声生成中に人間の調音を忠実に追従する方法で、ネットワークが調音器を制御することを学習していることを示唆している。
- 参考スコア(独自算出の注目度): 6.118463549086599
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative deep neural networks are widely used for speech synthesis, but
most existing models directly generate waveforms or spectral outputs. Humans,
however, produce speech by controlling articulators, which results in the
production of speech sounds through physical properties of sound propagation.
We propose a new unsupervised generative model of speech production/synthesis
that includes articulatory representations and thus more closely mimics human
speech production. We introduce the Articulatory Generator to the Generative
Adversarial Network paradigm. The Articulatory Generator needs to learn to
generate articulatory representations (electromagnetic articulography or EMA)
in a fully unsupervised manner without ever accessing EMA data. A separate
pre-trained physical model (ema2wav) then transforms the generated EMA
representations to speech waveforms, which get sent to the Discriminator for
evaluation. Articulatory analysis of the generated EMA representations suggests
that the network learns to control articulators in a manner that closely
follows human articulators during speech production. Acoustic analysis of the
outputs suggest that the network learns to generate words that are part of
training data as well as novel innovative words that are absent from training
data. Our proposed architecture thus allows modeling of articulatory learning
with deep neural networks from raw audio inputs in a fully unsupervised manner.
We additionally discuss implications of articulatory representations for
cognitive models of human language and speech technology in general.
- Abstract(参考訳): 生成型ディープニューラルネットワークは音声合成に広く使われているが、既存のモデルのほとんどは直接波形やスペクトル出力を生成する。
しかし、人間は調音器を制御することによって発声し、音の伝搬の物理的性質を通じて発声する。
本稿では,音声生成/合成の教師なし生成モデルを提案する。
本稿では,Articulatory Generatorをジェネレーティブ・アドバイサル・ネットワークのパラダイムに導入する。
Articulatory Generatorは、EMAデータにアクセスすることなく、完全に教師なしの方法で調音表現を生成することを学ぶ必要がある。
別個の事前訓練された物理モデル(ema2wav)が生成されたEMA表現を音声波形に変換し、評価のためにディスクリミネータに送信する。
生成したEMA表現の調音解析は、音声生成中に人間の調音を忠実に追従する方法で、ネットワークが調音器を制御することを学ぶことを示唆している。
出力の音響解析は、トレーニングデータの一部である単語を学習し、トレーニングデータに欠けている革新的な単語を生成することを示唆している。
提案アーキテクチャにより,生音声入力から深層ニューラルネットワークによる調音学習を,教師なしでモデル化することができる。
また、人間の言語と音声技術の認知モデルに対する調音表現の影響についても論じる。
関連論文リスト
- SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Repeat after me: Self-supervised learning of acoustic-to-articulatory
mapping by vocal imitation [9.416401293559112]
そこで本稿では,限定的な解釈可能な音声パラメータ集合から複雑な音声刺激を再現可能な,事前学習されたニューラル音声合成器を組み合わせた音声生成の計算モデルを提案する。
フォワードモデルと逆モデルの両方は、異なる話者からの生の音響のみの音声データから、自己指導的な方法で共同で訓練される。
模倣シミュレーションは客観的かつ主観的に評価され、非常に奨励的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-04-05T15:02:49Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Modeling speech recognition and synthesis simultaneously: Encoding and
decoding lexical and sublexical semantic information into speech with no
direct access to speech data [0.0]
我々は,非教師付き語彙学習において最も困難な目的である,辞書項目にユニークな表現を割り当てることを学ぶ教師なしネットワークを紹介した。
語彙学習に賛成する強い証拠が現れる。
生産と知覚の原則を組み合わせたアーキテクチャは、実際のトレーニングデータにアクセスすることなく、教師なしの方法で生の音響データからユニークな情報を復号することができる。
論文 参考訳(メタデータ) (2022-03-22T06:04:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in
Real-Time MRI [9.614694312155798]
本稿では,音声合成中の声道形状の可変長列における音響情報を理解する,ディープニューラルネットワークに基づく学習フレームワークを提案する。
提案するフレームワークは、畳み込み、繰り返しネットワーク、接続性時間的分類損失から成り、完全にエンドツーエンドに訓練されている。
我々の知る限りでは、この研究は、rtMRIビデオで捉えた個人の動脈の動きに基づいて、音声文全体の認識を示す最初の研究である。
論文 参考訳(メタデータ) (2021-06-16T11:20:02Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Generative Adversarial Phonology: Modeling unsupervised phonetic and
phonological learning with neural networks [0.0]
音声データにおけるよく理解された依存関係に基づくディープニューラルネットワークのトレーニングは、内部表現の学習方法に関する新たな洞察を提供することができる。
本稿では, 音声の獲得を, 生成適応型ネットワークアーキテクチャにおけるランダム空間と生成した音声データ間の依存性としてモデル化することができることを論じる。
本稿では,音韻的・音韻的特性に対応するネットワークの内部表現を明らかにする手法を提案する。
論文 参考訳(メタデータ) (2020-06-06T20:31:23Z) - CiwGAN and fiwGAN: Encoding information in acoustic data to model
lexical learning with Generative Adversarial Networks [0.0]
語彙学習は、ディープニューラルネットワークにデータを出力させるアーキテクチャの創発体としてモデル化される。
TIMITの辞書項目で訓練されたネットワークは、辞書項目に対応するユニークな情報を、その潜在空間におけるカテゴリ変数の形で符号化することを学ぶ。
ネットワークで学習した音声と音韻の表現は、生産的に組み換えられ、人間の発話の生産性と直接的に平行にできることを示す。
論文 参考訳(メタデータ) (2020-06-04T15:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。