論文の概要: CPSP: Learning Speech Concepts From Phoneme Supervision
- arxiv url: http://arxiv.org/abs/2309.00424v1
- Date: Fri, 1 Sep 2023 12:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 13:30:22.761497
- Title: CPSP: Learning Speech Concepts From Phoneme Supervision
- Title(参考訳): CPSP:音素スーパービジョンによる音声概念の学習
- Authors: Chunyu Qiang, Hao Li, Yixin Tian, Ruibo Fu, Tao Wang, Longbiao Wang,
Jianwu Dang
- Abstract要約: 本稿では,3つのエンコーダ,1つのデコーダ,およびコントラスト学習を用いて,音素と音声を協調したマルチモーダル空間に導入するコントラスト型音声合成訓練(CPSP)を提案する。
CPSPモデルは、210kの音声と音素のテキストペアで訓練され、最小限に制御されたTS、VC、ASRを達成する。
- 参考スコア(独自算出の注目度): 57.08426714676043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For fine-grained generation and recognition tasks such as
minimally-supervised text-to-speech (TTS), voice conversion (VC), and automatic
speech recognition (ASR), the intermediate representation extracted from speech
should contain information that is between text coding and acoustic coding. The
linguistic content is salient, while the paralinguistic information such as
speaker identity and acoustic details should be removed. However, existing
methods for extracting fine-grained intermediate representations from speech
suffer from issues of excessive redundancy and dimension explosion.
Additionally, existing contrastive learning methods in the audio field focus on
extracting global descriptive information for downstream audio classification
tasks, making them unsuitable for TTS, VC, and ASR tasks. To address these
issues, we propose a method named Contrastive Phoneme-Speech Pretraining
(CPSP), which uses three encoders, one decoder, and contrastive learning to
bring phoneme and speech into a joint multimodal space, learning how to connect
phoneme and speech at the frame level. The CPSP model is trained on 210k speech
and phoneme text pairs, achieving minimally-supervised TTS, VC, and ASR. The
proposed CPSP method offers a promising solution for fine-grained generation
and recognition downstream tasks in speech processing. We provide a website
with audio samples.
- Abstract(参考訳): 最小教師付きテキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などの微粒な生成および認識タスクでは、音声から抽出された中間表現は、テキスト符号化と音響符号化の間にある情報を含むべきである。
言語内容は健全であり、話者のアイデンティティや音響的詳細といったパラ言語情報を削除する必要がある。
しかし,音声から微細な中間表現を抽出する既存の手法は,過剰な冗長性や次元の爆発といった問題に悩まされている。
さらに、音声分野における既存のコントラスト学習手法は、下流オーディオ分類タスクのグローバル記述情報を抽出することに焦点を当てており、TS、VC、ASRタスクには適さない。
これらの問題に対処するために,3つのエンコーダ,1つのデコーダ,コントラスト学習を用いて,音素と音声を連接したマルチモーダル空間に導入し,フレームレベルで音素と音声を接続する方法を学習する Contrastive Phoneme-Speech Pretraining (CPSP) という手法を提案する。
CPSPモデルは、210kの音声と音素のテキストペアで訓練され、最小限に制御されたTS、VC、ASRを達成する。
提案手法は,音声処理における下流タスクの微粒化と認識のための有望な解を提供する。
オーディオサンプルをWebサイトに提供する。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。