論文の概要: SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic
Spaces
- arxiv url: http://arxiv.org/abs/2307.12445v1
- Date: Sun, 23 Jul 2023 22:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:11:42.151638
- Title: SCRAPS: Speech Contrastive Representations of Acoustic and Phonetic
Spaces
- Title(参考訳): SCRAPS:音響空間と音声空間の音声コントラスト表現
- Authors: Ivan Vall\'es-P\'erez, Grzegorz Beringer, Piotr Bilinski, Gary Cook,
Roberto Barra-Chicote
- Abstract要約: 音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。
その結果,提案手法は音素変化に敏感であることが示唆された。
その結果,様々な下流アプリケーションにおいて,埋め込みが有用であることを示す実証的証拠を提供する。
- 参考スコア(独自算出の注目度): 8.560932973104622
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Numerous examples in the literature proved that deep learning models have the
ability to work well with multimodal data. Recently, CLIP has enabled deep
learning systems to learn shared latent spaces between images and text
descriptions, with outstanding zero- or few-shot results in downstream tasks.
In this paper we explore the same idea proposed by CLIP but applied to the
speech domain, where the phonetic and acoustic spaces usually coexist. We train
a CLIP-based model with the aim to learn shared representations of phonetic and
acoustic spaces. The results show that the proposed model is sensible to
phonetic changes, with a 91% of score drops when replacing 20% of the phonemes
at random, while providing substantial robustness against different kinds of
noise, with a 10% performance drop when mixing the audio with 75% of Gaussian
noise. We also provide empirical evidence showing that the resulting embeddings
are useful for a variety of downstream applications, such as intelligibility
evaluation and the ability to leverage rich pre-trained phonetic embeddings in
speech generation task. Finally, we discuss potential applications with
interesting implications for the speech generation and recognition fields.
- Abstract(参考訳): 論文の多くの例は、ディープラーニングモデルがマルチモーダルデータとうまく連携できることを証明した。
最近、CLIPは、画像とテキスト記述間の共有潜在空間をディープラーニングシステムで学習できるようにし、下流タスクではゼロまたは少数ショットの結果が卓越している。
本稿では,CLIPが提案したのと同じアイデアを,音声空間と音響空間が共存する音声領域に適用する。
音声空間と音響空間の共有表現を学習するために,CLIPに基づくモデルを訓練する。
その結果,提案モデルは音素の20%をランダムに置き換える際に91%のスコアが低下し,異なる種類の雑音に対してかなりの頑健性が得られ,ガウス雑音の75%と混合した場合のパフォーマンスが10%低下した。
また,結果の埋め込みが,知性評価や音声生成タスクにおける豊富な事前学習音声埋め込みの活用など,下流のさまざまなアプリケーションにとって有用であることを示す実証的証拠を提供する。
最後に、音声生成と認識分野に興味深い意味を持つ潜在的な応用について論じる。
関連論文リスト
- Do Audio-Language Models Understand Linguistic Variations? [42.17718387132912]
Open-vocabulary Audio Language Model (ALM)は、自然言語クエリを用いた音声テキスト検索の新しいパラダイムである。
本稿では,言語変化に対する音声表現を学習するための新しい,計算効率の高い手法であるRobostCLAPを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:55:33Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Spatial HuBERT: Self-supervised Spatial Speech Representation Learning
for a Single Talker from Multi-channel Audio [7.808211269929968]
本稿では,自己教師型音声表現モデルであるSpatial HuBERTを提案する。
一つの話者に関連する音響情報と空間情報の両方を、潜在的にノイズの多い環境で学習する。
様々な空間的下流タスクにおいて、最先端の単一チャネル音声表現よりも優れた表現を学習する。
論文 参考訳(メタデータ) (2023-10-17T01:31:59Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。
提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-02-03T01:36:38Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。