論文の概要: Learning De-identified Representations of Prosody from Raw Audio
- arxiv url: http://arxiv.org/abs/2107.08248v1
- Date: Sat, 17 Jul 2021 14:37:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-20 15:11:47.206877
- Title: Learning De-identified Representations of Prosody from Raw Audio
- Title(参考訳): 生音声からの韻律の非識別表現の学習
- Authors: Jack Weston, Raphael Lenain, Udeepa Meepegama and Emil Fristed
- Abstract要約: コントラッシブな自己教師付き信号を用いて生音声から不特定韻律表現を学習する手法を提案する。
我々は韻律の自然な構造を利用して音節情報を最小化し、韻律を話者表現から切り離す。
- 参考スコア(独自算出の注目度): 7.025418443146435
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose a method for learning de-identified prosody representations from
raw audio using a contrastive self-supervised signal. Whereas prior work has
relied on conditioning models on bottlenecks, we introduce a set of inductive
biases that exploit the natural structure of prosody to minimize timbral
information and decouple prosody from speaker representations. Despite
aggressive downsampling of the input and having no access to linguistic
information, our model performs comparably to state-of-the-art speech
representations on DAMMP, a new benchmark we introduce for spoken language
understanding. We use minimum description length probing to show that our
representations have selectively learned the subcomponents of non-timbral
prosody, and that the product quantizer naturally disentangles them without
using bottlenecks. We derive an information-theoretic definition of speech
de-identifiability and use it to demonstrate that our prosody representations
are less identifiable than other speech representations.
- Abstract(参考訳): コントラッシブな自己教師付き信号を用いて生音声から不特定韻律表現を学習する手法を提案する。
先行研究はボトルネックの条件付けモデルに依存してきたが, 音韻の自然な構造を利用して音韻情報を最小化し, 話者表現から韻律を分離する帰納的バイアスを導入する。
入力を積極的にダウンサンプリングし、言語情報にアクセスできないにもかかわらず、我々のモデルは、DAMMPにおける最先端の音声表現と互換性がある。
最小記述長プロービングを用いて、我々の表現が非ティムブラル韻律のサブコンポーネントを選択的に学習し、製品量子化器がボトルネックを使わずにそれらを自然に分離することを示す。
我々は、音声の識別性に関する情報理論的な定義を導き、それを用いて、韻律表現が他の音声表現よりも識別しにくいことを示す。
関連論文リスト
- DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - Removing Speaker Information from Speech Representation using Variable-Length Soft Pooling [16.73336092521471]
本稿では,音声の構造的性質を利用して話者情報を除去することを目的とする。
ニューラルネットワークはこれらの境界を予測し、イベントベースの表現抽出のための可変長プーリングを可能にする。
学習した表現が内容情報を含み、話者情報とは無関係であることを確認するため、リブリライトの音声ABXタスクとSUPERBの話者識別タスクを用いてモデルの評価を行った。
論文 参考訳(メタデータ) (2024-04-01T01:49:09Z) - Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Bootstrapping meaning through listening: Unsupervised learning of spoken
sentence embeddings [4.582129557845177]
本研究では,音声発話における意味表現の教師なし学習に取り組む。
音声の高密度表現から隠れ単位を予測するシーケンシャルオートエンコーダWavEmbedを提案する。
また,S-HuBERTを用いて知識蒸留による意味の誘導を提案する。
論文 参考訳(メタデータ) (2022-10-23T21:16:09Z) - Learning Invariant Representation and Risk Minimized for Unsupervised
Accent Domain Adaptation [32.75866643254402]
音声の教師なし表現学習は,音声認識タスクにおける印象的なパフォーマンスを達成した。
本研究では,言語情報に対する表現を直接マッピングすることで,ドメイン不変表現の学習について検討する。
その結果,学習者は各音素の調音的特徴を捉えただけでなく,適応能力も向上し,アクセント付きベンチマークのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-15T03:56:31Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。