論文の概要: CiwaGAN: Articulatory information exchange
- arxiv url: http://arxiv.org/abs/2309.07861v1
- Date: Thu, 14 Sep 2023 17:10:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 12:03:10.563004
- Title: CiwaGAN: Articulatory information exchange
- Title(参考訳): ciwagan: 調音情報交換
- Authors: Ga\v{s}per Begu\v{s}, Thomas Lu, Alan Zhou, Peter Wu, Gopala K.
Anumanchipalli
- Abstract要約: 人間は調音器を制御して音に情報をエンコードし、聴覚装置を用いて音から情報をデコードする。
本稿では、教師なし調音モデルと教師なし情報交換モデルを組み合わせた人間の音声言語習得モデルであるCiwaGANを紹介する。
- 参考スコア(独自算出の注目度): 15.944474482218334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans encode information into sounds by controlling articulators and decode
information from sounds using the auditory apparatus. This paper introduces
CiwaGAN, a model of human spoken language acquisition that combines
unsupervised articulatory modeling with an unsupervised model of information
exchange through the auditory modality. While prior research includes
unsupervised articulatory modeling and information exchange separately, our
model is the first to combine the two components. The paper also proposes an
improved articulatory model with more interpretable internal representations.
The proposed CiwaGAN model is the most realistic approximation of human spoken
language acquisition using deep learning. As such, it is useful for cognitively
plausible simulations of the human speech act.
- Abstract(参考訳): 人間は調音器を制御して音に情報をエンコードし、聴覚装置を用いて音から情報をデコードする。
本稿では,教師なし言語モデルと教師なし情報交換モデルを組み合わせた音声言語獲得モデルであるciwaganについて述べる。
先行研究は教師なしの調音モデルと情報交換を別々に含むが、この2つのコンポーネントを結合した最初のモデルである。
また,より解釈可能な内部表現を用いた調音モデルの改良も提案する。
提案したCiwaGANモデルは,ディープラーニングを用いた人間の音声言語習得の最も現実的な近似である。
したがって、人間の発話行為の認知的妥当なシミュレーションに有用である。
関連論文リスト
- Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Turn-taking and Backchannel Prediction with Acoustic and Large Language
Model Fusion [38.78341787348164]
大規模言語モデル(LLM)を用いたニューラル音響モデルを用いた音声対話におけるターンテイクとバックチャネル位置の連続予測手法を提案する。
Switchboardの人間と人間の会話データセットの実験は、我々のアプローチが単一のモダリティでベースラインモデルより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T08:59:07Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Unsupervised Auditory and Semantic Entrainment Models with Deep Neural
Networks [0.3222802562733786]
本稿では,意味学習を開発するためのテキストの特徴から意味のある表現を導出する,教師なしのディープラーニングフレームワークを提案する。
その結果,本モデルでは,HHとHMの相互作用を区別し,音響特性を抽出するための2つの分析単位が同等な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-12-22T22:33:54Z) - Self-supervised speech unit discovery from articulatory and acoustic
features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。
我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。
実験は英語とフランス語の3つの異なるコーパスで行われた。
論文 参考訳(メタデータ) (2022-06-17T14:04:24Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Repeat after me: Self-supervised learning of acoustic-to-articulatory
mapping by vocal imitation [9.416401293559112]
そこで本稿では,限定的な解釈可能な音声パラメータ集合から複雑な音声刺激を再現可能な,事前学習されたニューラル音声合成器を組み合わせた音声生成の計算モデルを提案する。
フォワードモデルと逆モデルの両方は、異なる話者からの生の音響のみの音声データから、自己指導的な方法で共同で訓練される。
模倣シミュレーションは客観的かつ主観的に評価され、非常に奨励的なパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-04-05T15:02:49Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。