論文の概要: Unsupervised Speech Representation Pooling Using Vector Quantization
- arxiv url: http://arxiv.org/abs/2304.03940v1
- Date: Sat, 8 Apr 2023 07:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:53:58.808424
- Title: Unsupervised Speech Representation Pooling Using Vector Quantization
- Title(参考訳): ベクトル量子化を用いた教師なし音声表現プール
- Authors: Jeongkyun Park, Kwanghee Choi, Hyunjun Heo, Hyung-Min Park
- Abstract要約: 本稿では,ベクトル量子化による音響的に類似した表現をスキャッシュする新しいプール法を提案する。
我々は,様々な自己教師付きモデルを用いて,教師なしプール法の評価を行った。
- 参考スコア(独自算出の注目度): 2.561649173827544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advent of general-purpose speech representations from large-scale
self-supervised models, applying a single model to multiple downstream tasks is
becoming a de-facto approach. However, the pooling problem remains; the length
of speech representations is inherently variable. The naive average pooling is
often used, even though it ignores the characteristics of speech, such as
differently lengthed phonemes. Hence, we design a novel pooling method to
squash acoustically similar representations via vector quantization, which does
not require additional training, unlike attention-based pooling. Further, we
evaluate various unsupervised pooling methods on various self-supervised
models. We gather diverse methods scattered around speech and text to evaluate
on various tasks: keyword spotting, speaker identification, intent
classification, and emotion recognition. Finally, we quantitatively and
qualitatively analyze our method, comparing it with supervised pooling methods.
- Abstract(参考訳): 大規模自己組織化モデルによる汎用音声表現の出現に伴い、複数の下流タスクに単一モデルを適用することは事実上のアプローチになりつつある。
しかし、プール問題は残っており、音声表現の長さは本質的に変動している。
異なる長さの音素のような音声の特徴を無視するにもかかわらず、単純平均プーリングがしばしば用いられる。
そこで我々は,注意に基づくプーリングとは異なり,追加のトレーニングを必要としないベクトル量子化による音響的類似表現を分割する新しいプーリング法を考案する。
さらに,様々な自己教師付きモデルを用いて,教師なしプール法の評価を行った。
キーワードスポッティング,話者識別,意図分類,感情認識など,さまざまなタスクについて評価するために,音声とテキストに散在する多様な手法を収集した。
最後に,本手法を教師付きプール法と比較し,定量的かつ質的に解析する。
関連論文リスト
- Distilling Monolingual and Crosslingual Word-in-Context Representations [18.87665111304974]
本研究では,単言語と言語間の両方の設定において,事前学習した言語モデルから文脈における単語の意味表現を除去する手法を提案する。
本手法では,事前学習したモデルのコーパスやパラメータの更新は不要である。
本手法は,事前学習したモデルの異なる隠れ層の出力を自己注意を用いて組み合わせることから学習する。
論文 参考訳(メタデータ) (2024-09-13T11:10:16Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Posthoc Interpretation via Quantization [9.510336895838703]
本稿では,量子化によるポストホック解釈 (Posthoc Interpretation via Quantization, PIQ) と呼ばれる新しい手法を導入する。
本手法はベクトル量子化を用いて分類器の表現を離散クラス固有の潜在空間に変換する。
我々のモデル定式化は、事前訓練されたアノテーションモデルの監督を組み込むことで、学習の概念を可能にする。
論文 参考訳(メタデータ) (2023-03-22T15:37:43Z) - Analyzing Acoustic Word Embeddings from Pre-trained Self-supervised
Speech Models [30.30385903059709]
HuBERTの表現は平均的なペアリングで、英語のAWEで最先端のアートに匹敵する。
英語のみで訓練されているにもかかわらず、ユベルト表現はXitsonga、Mandarin、フランス語で評価され、多言語モデルXLSR-53より一貫して優れていた。
論文 参考訳(メタデータ) (2022-10-28T10:26:46Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Autoregressive Co-Training for Learning Discrete Speech Representations [19.400428010647573]
音声の離散表現を学習する離散潜在変数を持つ生成モデルを考える。
提案手法は音素単位と高い相関関係を持つ離散表現を学習する。
論文 参考訳(メタデータ) (2022-03-29T18:17:18Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Non-Autoregressive Predictive Coding for Learning Speech Representations
from Local Dependencies [91.92060221982064]
非自己回帰予測符号化(NPC)を提案する。
NPCは概念的には単純で、Masked Convolution Blocksで簡単に実装できる。
また,NPC表現は音声や話者の分類における他の手法に匹敵するが,より効率的であることを示す。
論文 参考訳(メタデータ) (2020-11-01T02:48:37Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。