Fugu-MT 論文翻訳(概要): Self-supervised speech unit discovery from articulatory and acoustic features using VQ-VAE

論文の概要: Self-supervised speech unit discovery from articulatory and acoustic features using VQ-VAE

arxiv url: http://arxiv.org/abs/2206.08790v1
Date: Fri, 17 Jun 2022 14:04:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-20 20:19:10.043245
Title: Self-supervised speech unit discovery from articulatory and acoustic features using VQ-VAE
Title（参考訳）: VQ-VAEを用いた音声・音響特徴からの自己教師付き音声単位の検出
Authors: Marc-Antoine Georges, Jean-Luc Schwartz, Thomas Hueber
Abstract要約: 本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。実験は英語とフランス語の3つの異なるコーパスで行われた。
参考スコア（独自算出の注目度）: 2.771610203951056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The human perception system is often assumed to recruit motor knowledge when processing auditory speech inputs. Using articulatory modeling and deep learning, this study examines how this articulatory information can be used for discovering speech units in a self-supervised setting. We used vector-quantized variational autoencoders (VQ-VAE) to learn discrete representations from articulatory and acoustic speech data. In line with the zero-resource paradigm, an ABX test was then used to investigate how the extracted representations encode phonetically relevant properties. Experiments were conducted on three different corpora in English and French. We found that articulatory information rather organises the latent representations in terms of place of articulation whereas the speech acoustics mainly structure the latent space in terms of manner of articulation. We show that an optimal fusion of the two modalities can lead to a joint representation of these phonetic dimensions more accurate than each modality considered individually. Since articulatory information is usually not available in a practical situation, we finally investigate the benefit it provides when inferred from the speech acoustics in a self-supervised manner.
Abstract（参考訳）: 人間の知覚システムは、聴覚音声入力を処理する際に、運動知識を雇うとしばしば仮定される。本研究は, 調音モデルと深層学習を用いて, 音声単位の発見にこの調音情報をいかに活用するかを検討する。我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。ゼロリソースのパラダイムに従って、抽出された表現がどのように音韻的関連のあるプロパティをエンコードするかを調べるためにabxテストが用いられた。実験は英語とフランス語の3つの異なるコーパスで行われた。調音情報は,発話の場所という観点からはむしろ潜在表現を整理するのに対し,音声音響では発話の仕方で主に潜在空間を構成できることがわかった。 2つのモダリティの最適融合は、個々のモダリティを個別に考えるよりも、これらの音韻次元の結合表現をより正確に導くことができることを示す。音声情報は通常,実用的な状況では利用できないため,音声音響から推測した場合のメリットを自己教師ありで検証する。

関連論文リスト

Exploring Speech Recognition, Translation, and Understanding with Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文参考訳（メタデータ） (2023-09-27T17:21:13Z)
Improving Speaker Diarization using Semantic Information: Joint Pairwise Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。音声言語理解モジュールを導入し、話者関連意味情報を抽出する。本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文参考訳（メタデータ） (2023-09-19T09:13:30Z)
Disentangling Prosody Representations with Unsupervised Speech Reconstruction [22.873286925385543]
本研究の目的は、教師なし再構成に基づく音声からの感情的韻律のゆがみに対処することである。具体的には,提案した音声再構成モデルProsody2Vecの3つの重要なコンポーネントを同定し,設計し,実装し,統合する。まず, 感情的コーパスのProsody2Vec表現を事前訓練し, 特定のデータセットのモデルを微調整し, 音声感情認識(SER)と感情音声変換(EVC)タスクを実行する。
論文参考訳（メタデータ） (2022-12-14T01:37:35Z)
Bootstrapping meaning through listening: Unsupervised learning of spoken sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文参考訳（メタデータ） (2022-10-23T21:16:09Z)
Deep Learning For Prominence Detection In Children's Read Speech [13.041607703862724]
本稿では, 幼児の口臭度評価に際し, 単語検出に係わる特徴を学習するためのセグメント音声波形を用いたシステムを提案する。単語レベルの特徴とシーケンス情報の両方を取り入れた選択されたCRNN(畳み込みリカレントニューラルネットワーク)フレームワークは、知覚的に動機付けられたSincNetフィルタの恩恵を受けている。
論文参考訳（メタデータ） (2021-10-27T08:51:42Z)
Transferring Voice Knowledge for Acoustic Event Detection: An Empirical Study [11.825240267691209]
本稿では,話者データセットから抽出した高レベル音声表現を伝達して,音響イベント検出パイプラインを強化する可能性について検討する。 AEDプロセス中に音声と音響の特徴を共同学習するためのデュアルブランチニューラルネットワークアーキテクチャを開発した。
論文参考訳（メタデータ） (2021-10-07T04:03:21Z)
Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文参考訳（メタデータ） (2020-12-30T15:09:02Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文参考訳（メタデータ） (2020-08-21T17:24:09Z)
Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。テスト発話から直接適応に用いる話者表現を抽出する。
論文参考訳（メタデータ） (2020-02-14T05:05:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。