論文の概要: Learning Speech Representation From Contrastive Token-Acoustic
Pretraining
- arxiv url: http://arxiv.org/abs/2309.00424v2
- Date: Wed, 6 Sep 2023 14:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 18:18:39.209814
- Title: Learning Speech Representation From Contrastive Token-Acoustic
Pretraining
- Title(参考訳): コントラストトークン音響事前学習による音声表現の学習
- Authors: Chunyu Qiang, Hao Li, Yixin Tian, Ruibo Fu, Tao Wang, Longbiao Wang,
Jianwu Dang
- Abstract要約: 本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素テキストのペアで訓練され、最小教師付きTS、VC、ASRを実現する。
- 参考スコア(独自算出の注目度): 57.08426714676043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For fine-grained generation and recognition tasks such as
minimally-supervised text-to-speech (TTS), voice conversion (VC), and automatic
speech recognition (ASR), the intermediate representations extracted from
speech should serve as a "bridge" between text and acoustic information,
containing information from both modalities. The semantic content is
emphasized, while the paralinguistic information such as speaker identity and
acoustic details should be de-emphasized. However, existing methods for
extracting fine-grained intermediate representations from speech suffer from
issues of excessive redundancy and dimension explosion. Contrastive learning is
a good method for modeling intermediate representations from two modalities.
However, existing contrastive learning methods in the audio field focus on
extracting global descriptive information for downstream audio classification
tasks, making them unsuitable for TTS, VC, and ASR tasks. To address these
issues, we propose a method named "Contrastive Token-Acoustic Pretraining
(CTAP)", which uses two encoders to bring phoneme and speech into a joint
multimodal space, learning how to connect phoneme and speech at the frame
level. The CTAP model is trained on 210k speech and phoneme text pairs,
achieving minimally-supervised TTS, VC, and ASR. The proposed CTAP method
offers a promising solution for fine-grained generation and recognition
downstream tasks in speech processing.
- Abstract(参考訳): 最小教師付きテキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などの微粒化タスクでは、音声から抽出した中間表現は、両モードの情報を含むテキストと音響情報の「ブリッジ」として機能すべきである。
セマンティックな内容は強調され、話者のアイデンティティや音響的詳細といったパラ言語的な情報は強調されなければならない。
しかし,音声から微細な中間表現を抽出する既存の手法は,過剰な冗長性や次元の爆発といった問題に悩まされている。
コントラスト学習は2つのモードから中間表現をモデル化する良い方法である。
しかし、音声分野における既存のコントラスト学習手法は、下流オーディオ分類タスクのグローバル記述情報を抽出することに焦点を当てており、TS、VC、ASRタスクには適さない。
これらの問題に対処するために,2つのエンコーダを用いて音素と音声を連接したマルチモーダル空間に導入し,フレームレベルで音素と音声を接続する方法を学習するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
CTAPモデルは、210kの音声と音素のテキストペアで訓練され、最小限に制御されたTS、VC、ASRを達成する。
提案手法は,音声処理における下流タスクの細粒度生成と認識のための有望なソリューションを提供する。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。