論文の概要: Estimating the Completeness of Discrete Speech Units
- arxiv url: http://arxiv.org/abs/2409.06109v2
- Date: Sun, 22 Sep 2024 18:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 22:16:23.314913
- Title: Estimating the Completeness of Discrete Speech Units
- Title(参考訳): 離散音声ユニットの完全性の推定
- Authors: Sung-Lin Yeh, Hao Tang,
- Abstract要約: 我々は情報理論の観点から、情報が存在するか(情報完全性)とアクセス可能か(情報アクセシビリティ)に答える。
HuBERT離散単位には話者情報が十分存在しており、残音には音声情報が十分存在しており、ベクトル量子化が絡み合っていないことを示す。
- 参考スコア(独自算出の注目度): 11.34017791070447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representing speech with discrete units has been widely used in speech codec and speech generation. However, there are several unverified claims about self-supervised discrete units, such as disentangling phonetic and speaker information with k-means, or assuming information loss after k-means. In this work, we take an information-theoretic perspective to answer how much information is present (information completeness) and how much information is accessible (information accessibility), before and after residual vector quantization. We show a lower bound for information completeness and estimate completeness on discretized HuBERT representations after residual vector quantization. We find that speaker information is sufficiently present in HuBERT discrete units, and that phonetic information is sufficiently present in the residual, showing that vector quantization does not achieve disentanglement. Our results offer a comprehensive assessment on the choice of discrete units, and suggest that a lot more information in the residual should be mined rather than discarded.
- Abstract(参考訳): 離散単位による音声表現は音声コーデックや音声生成に広く用いられている。
しかし、k-meansで音声情報や話者情報を混同したり、k-means以降の情報損失を仮定したりするなど、自己管理された離散単位に関する不確実な主張がいくつかある。
本研究では,情報理論の観点を用いて,情報量(情報完全性)と情報量(情報アクセシビリティ)(情報アクセシビリティ)を,残差ベクトル量子化前後に求める。
残差ベクトル量子化後の離散化HuBERT表現に対して,情報完全性と推定完全性に対する低い境界を示す。
我々は,HuBERT離散単位には話者情報が十分に存在しており,残音には音声情報が十分存在しており,ベクトル量子化が絡み合っていないことを示す。
この結果から, 離散単位の選択に関する総合的な評価が得られ, 残余の情報は廃棄されるよりも多く掘り下げるべきであることが示唆された。
関連論文リスト
- Quantum information scrambling in adiabatically-driven critical systems [49.1574468325115]
量子情報スクランブル(quantum information scrambling)とは、量子多体系の多くの自由度に初期記憶された情報の拡散を指す。
ここでは、量子情報スクランブルの概念を、断熱進化中の臨界量子多体系に拡張する。
論文 参考訳(メタデータ) (2024-08-05T18:00:05Z) - Removing Speaker Information from Speech Representation using Variable-Length Soft Pooling [16.73336092521471]
本稿では,音声の構造的性質を利用して話者情報を除去することを目的とする。
ニューラルネットワークはこれらの境界を予測し、イベントベースの表現抽出のための可変長プーリングを可能にする。
学習した表現が内容情報を含み、話者情報とは無関係であることを確認するため、リブリライトの音声ABXタスクとSUPERBの話者識別タスクを用いてモデルの評価を行った。
論文 参考訳(メタデータ) (2024-04-01T01:49:09Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Quantum scrambling via accessible tripartite information [0.0]
量子情報スクランブル(QIS)は一般に、情報の局所的非検索可能性として理解されている。
アクセス可能な相互情報を利用することで,これらの問題を克服できることを示す。
論文 参考訳(メタデータ) (2023-05-30T18:02:09Z) - Randomized Quantization: A Generic Augmentation for Data Agnostic
Self-supervised Learning [89.00646449740606]
自己監督型表現学習は、データの一部を保持し、残りの部分から予測するようにネットワークに指示するパラダイムに従っている。
データ拡張は、情報ギャップを作るためのコアにあります。
本稿では,精度の冗長性を利用した汎用データ拡張のためのチャネル次元について検討する。
論文 参考訳(メタデータ) (2022-12-19T18:59:57Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Learning De-identified Representations of Prosody from Raw Audio [7.025418443146435]
コントラッシブな自己教師付き信号を用いて生音声から不特定韻律表現を学習する手法を提案する。
我々は韻律の自然な構造を利用して音節情報を最小化し、韻律を話者表現から切り離す。
論文 参考訳(メタデータ) (2021-07-17T14:37:25Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - Vector-Quantized Autoregressive Predictive Coding [31.4011465698136]
本稿では,Vector-Quantized Autoregressive Predictive Coding (VQ-APC)を提案する。
制限されたモデルの列を研究することで、学習された表現の構成要素を明らかにする。
音声情報や話者情報を増幅して、自己監督対象を最大化する点が存在することがわかった。
論文 参考訳(メタデータ) (2020-05-17T23:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。