論文の概要: Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá
- arxiv url: http://arxiv.org/abs/2604.07467v1
- Date: Wed, 08 Apr 2026 18:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.494431
- Title: Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá
- Title(参考訳): レキシカルトーンは量子化が難しい:マンダリンとヨルバにおける離散音声単位の探索
- Authors: Opeyemi Osakuade, Simon King,
- Abstract要約: 離散音声単位(DSU)は、自己教師付き学習(SSL)を用いて訓練されたモデルから表現を定量化する。
DSUはセグメント構造よりも重畳情報のエンコード性が低いことを示す。
Mandarin と Yorb を用いた調査では、SSL の潜在表現自体が符号化されるが、量子化を用いて得られた DSU は音声構造を優先する傾向にある。
- 参考スコア(独自算出の注目度): 6.024575966427832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete speech units (DSUs) are derived by quantising representations from models trained using self-supervised learning (SSL). They are a popular representation for a wide variety of spoken language tasks, including those where prosody matters. DSUs are especially convenient for tasks where text and speech are jointly modelled, such as text-to-speech and multimodal dialogue systems. But we have found that DSUs encode suprasegmental information less reliably than segmental structure, which we demonstrate in this work using lexical tone, though this limitation likely extends to other suprasegmental features such as prosody. Our investigations using the tone languages Mandarin and Yorùbá show that the SSL latent representations themselves do encode tone, yet DSUs obtained using quantisation tend to prioritise phonetic structure, which makes lexical tone less reliably encoded. This remains true for a variety of quantisation methods, not only the most common, K-means. We conclude that current DSU quantisation strategies have limitations for suprasegmental features, which suggests a need for new, tone-aware (or prosody-aware) techniques in speech representation learning. We point towards a potential form of the solution by performing K-means clustering once to encode phonetic information, then again on the residual representation, which better encodes lexical tone.
- Abstract(参考訳): 離散音声単位(DSU)は、自己教師付き学習(SSL)を用いて訓練されたモデルから表現を定量化する。
これらは、韻律が重要となるものを含む、多種多様な言語タスクの一般的な表現である。
DSUは、テキスト音声対話システムやマルチモーダル対話システムなど、テキストと音声を共同でモデル化するタスクに特に便利である。
しかし,DSUはセグメント構造よりも精度の低い部分情報を符号化していることが判明した。これは語彙音を用いて本研究で示されたものであるが,この制限は韻律などの他の部分的特徴にも及んでいる可能性が高い。
マンダリン語とヨルバー語を用いた調査では、SSL潜在表現自体が符号化されるが、量子化を用いて得られたDSUは音声構造を優先する傾向があり、レキシカルトーンが確実に符号化されにくくなっている。
これは、最も一般的なK平均だけでなく、様々な量子化法にも当てはまる。
現在のDSU量子化戦略は、音声表現学習における新しいトーン・アウェア(韻律認識)技術の必要性を示唆する上述の機能に限界があることを結論付けている。
我々は、K平均クラスタリングを行い、音声情報をエンコードし、その後、レキシカルトーンをよりよくエンコードする残差表現を再度行うことにより、解の潜在的な形態を指している。
関連論文リスト
- Speech Codec Probing from Semantic and Phonetic Perspectives [49.01048570474675]
音声トークン化器は,マルチモーダルシステムにおいて,音声を大言語モデル (LLM) に接続するために必須である。
新たな証拠は、音声表現において「意味」と呼ばれるものは、テキスト由来の意味論と一致しないことを示している。
論文 参考訳(メタデータ) (2026-03-11T03:32:25Z) - BEST-STD: Bidirectional Mamba-Enhanced Speech Tokenization for Spoken Term Detection [8.303512060791736]
スポット項の検出は、フレームレベルの特徴と計算集約的なDTWベースのテンプレートマッチングに依存しているため、しばしば妨げられる。
本稿では,音声を個別の話者に依存しないセマンティックトークンに符号化する手法を提案する。
これにより、テキストベースの検索アルゴリズムによる高速検索が容易になり、語彙外用語を効果的に扱うことができる。
論文 参考訳(メタデータ) (2024-11-21T13:05:18Z) - Do Discrete Self-Supervised Representations of Speech Capture Tone Distinctions? [13.197705351799215]
我々は,マンダリンとヨルバの2つの例言語において,離散記号が声調を適切に捉えているかどうかを評価する。
離散シンボルを使用すると、言語仕様のSSLモデルであっても、トーン情報が著しく失われることがわかった。
論文 参考訳(メタデータ) (2024-10-25T19:13:25Z) - SyllableLM: Learning Coarse Semantic Units for Speech Language Models [21.762112843104028]
本稿では,音声表現を粗い音節単位にマージする制御可能な自己教師手法を提案する。
制御可能なセマンティックユニットを5Hz,60bpsで生成し,SotA incセグメンテーションとクラスタリングを行った。
SyllableLMは、トレーニング計算の30倍の削減と4倍のウォールクロック推論高速化によって、大幅な効率向上を実現している。
論文 参考訳(メタデータ) (2024-10-05T04:29:55Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。