論文の概要: An Information-Theoretic Analysis of Self-supervised Discrete
Representations of Speech
- arxiv url: http://arxiv.org/abs/2306.02405v1
- Date: Sun, 4 Jun 2023 16:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:07:55.867556
- Title: An Information-Theoretic Analysis of Self-supervised Discrete
Representations of Speech
- Title(参考訳): 音声の自己教師付き離散表現に関する情報理論解析
- Authors: Badr M. Abdullah, Mohammed Maqsood Shaik, Bernd M\"obius, Dietrich
Klakow
- Abstract要約: 我々は,各音韻カテゴリーを離散単位上の分布として表現する情報理論フレームワークを開発した。
本研究は,音素分布のエントロピーが下層の音声の変動を反映していることを示す。
本研究は, 直接・一対一対応の欠如を裏付けるものであるが, 音韻カテゴリーと離散単位との間には, 興味深い, 間接的な関係があることを見出した。
- 参考スコア(独自算出の注目度): 17.07957283733822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning for speech often involves a
quantization step that transforms the acoustic input into discrete units.
However, it remains unclear how to characterize the relationship between these
discrete units and abstract phonetic categories such as phonemes. In this
paper, we develop an information-theoretic framework whereby we represent each
phonetic category as a distribution over discrete units. We then apply our
framework to two different self-supervised models (namely wav2vec 2.0 and XLSR)
and use American English speech as a case study. Our study demonstrates that
the entropy of phonetic distributions reflects the variability of the
underlying speech sounds, with phonetically similar sounds exhibiting similar
distributions. While our study confirms the lack of direct, one-to-one
correspondence, we find an intriguing, indirect relationship between phonetic
categories and discrete units.
- Abstract(参考訳): 音声に対する自己教師あり表現学習は、しばしば音響入力を離散単位に変換する量子化ステップを伴う。
しかし、これらの離散単位と音素などの抽象音素カテゴリーの関係をどう特徴付けるかは、まだ不明である。
本稿では,各音声カテゴリーを離散単位上の分布として表現する情報理論的枠組みを提案する。
次に,この枠組みを2つの異なる自己教師モデル(wav2vec 2.0とxlsr)に適用し,ケーススタディとしてアメリカ英語音声を用いた。
本研究は,音韻分布のエントロピーが下層の音声の変動を反映していることを示す。
本研究は1対1の直接対応の欠如を裏付けるものであるが、音声カテゴリーと離散単位の間の興味深く、間接的な関係を見出す。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - An analysis on the effects of speaker embedding choice in non
auto-regressive TTS [4.619541348328938]
本稿では,非自己回帰的分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込みセットに存在する情報をどのように活用するかを理解するための最初の試みを紹介する。
使用済みの埋め込みと学習戦略にかかわらず、ネットワークは様々な話者識別を等しく扱うことができることを示す。
論文 参考訳(メタデータ) (2023-07-19T10:57:54Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Towards Disentangled Speech Representations [65.7834494783044]
本研究では, ASR と TTS の合同モデリングに基づく表現学習タスクを構築する。
本研究は,その部分の音声信号と,その部分の音声信号とをアンタングルする音声表現を学習することを目的とする。
我々は,これらの特性をトレーニング中に強化することにより,WERを平均24.5%向上させることを示す。
論文 参考訳(メタデータ) (2022-08-28T10:03:55Z) - Self-supervised speech unit discovery from articulatory and acoustic
features using VQ-VAE [2.771610203951056]
本研究では,自己教師型環境下での音声単位の発見に,調音情報をどのように利用できるかを検討する。
我々はベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて音声・音声データから離散表現を学習した。
実験は英語とフランス語の3つの異なるコーパスで行われた。
論文 参考訳(メタデータ) (2022-06-17T14:04:24Z) - Autoregressive Co-Training for Learning Discrete Speech Representations [19.400428010647573]
音声の離散表現を学習する離散潜在変数を持つ生成モデルを考える。
提案手法は音素単位と高い相関関係を持つ離散表現を学習する。
論文 参考訳(メタデータ) (2022-03-29T18:17:18Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study [12.210797811981173]
本稿では,音響埋め込み空間内の距離が音韻的相似性と相関しているかを問う。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)ベストケースにおける埋め込み空間内の距離は音韻的距離と適度に相関すること,(2)単語識別タスクの性能向上が必ずしも単語の音韻的類似性を反映したモデルを生成するとは限らないことがわかった。
論文 参考訳(メタデータ) (2021-06-16T10:47:56Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。