論文の概要: Phone and speaker spatial organization in self-supervised speech
representations
- arxiv url: http://arxiv.org/abs/2302.14055v1
- Date: Fri, 24 Feb 2023 19:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 19:28:08.979271
- Title: Phone and speaker spatial organization in self-supervised speech
representations
- Title(参考訳): 自己教師付き音声表現における音声と話者空間構造
- Authors: Pablo Riera, Manuela Cerdeiro, Leonardo Pepino, Luciana Ferrer
- Abstract要約: 本稿では、下流モデルを必要としない手法を用いて、複数の最先端音声表現における音声と話者情報の空間的構造を解析する。
以上の結果から,事前学習における対象課題に応じて,モデルがこれらの特徴を異なる形で表現できることが示唆された。
- 参考スコア(独自算出の注目度): 9.824115749477423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representations of speech are currently being widely used for
a large number of applications. Recently, some efforts have been made in trying
to analyze the type of information present in each of these representations.
Most such work uses downstream models to test whether the representations can
be successfully used for a specific task. The downstream models, though,
typically perform nonlinear operations on the representation extracting
information that may not have been readily available in the original
representation. In this work, we analyze the spatial organization of phone and
speaker information in several state-of-the-art speech representations using
methods that do not require a downstream model. We measure how different layers
encode basic acoustic parameters such as formants and pitch using
representation similarity analysis. Further, we study the extent to which each
representation clusters the speech samples by phone or speaker classes using
non-parametric statistical testing. Our results indicate that models represent
these speech attributes differently depending on the target task used during
pretraining.
- Abstract(参考訳): 音声の自己教師あり表現は、現在多くのアプリケーションで広く使われている。
近年、これらの表現のそれぞれに存在する情報の種類を分析する試みがなされている。
このような作業のほとんどは、ダウンストリームモデルを使用して、特定のタスクで表現がうまく使えるかどうかをテストする。
しかし、下流モデルは通常、元の表現では利用できなかったかもしれない情報を抽出する表現に対して非線形操作を行う。
本研究では,下流モデルを必要としない手法を用いて,最先端音声表現における電話と話者情報の空間的構成を分析する。
表象類似度解析を用いて,ホルマントやピッチなどの基本音響パラメータを異なる層でエンコードする方法を計測する。
さらに,非パラメトリック統計テストを用いて,各表現が音声サンプルを電話または話者クラスで収集する程度について検討した。
以上の結果から,モデルによる音声特性の表現は,事前学習時の対象課題によって異なることが示唆された。
関連論文リスト
- Learning Semantic Information from Raw Audio Signal Using Both
Contextual and Phonetic Representations [18.251845041785906]
本稿では,2種類の表現を用いて生音声信号から意味を学習するフレームワークを提案する。
本稿では,時間分解能の異なる2種類の表現をキャプチャする音声対単位処理パイプラインを提案する。
言語モデルでは、両タイプの表現を組み込むためにデュアルチャネルアーキテクチャを採用する。
論文 参考訳(メタデータ) (2024-02-02T10:39:58Z) - Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Inverse Dynamics Pretraining Learns Good Representations for Multitask
Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。
本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。
逆動力学モデリングはこの設定に適していると主張する。
論文 参考訳(メタデータ) (2023-05-26T14:40:46Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。