論文の概要: Segmentation-Variant Codebooks for Preservation of Paralinguistic and Prosodic Information
- arxiv url: http://arxiv.org/abs/2505.15667v1
- Date: Wed, 21 May 2025 15:44:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.749532
- Title: Segmentation-Variant Codebooks for Preservation of Paralinguistic and Prosodic Information
- Title(参考訳): パラ言語・韻律情報保存のためのセグメンテーション可変コードブック
- Authors: Nicholas Sanders, Yuanchao Li, Korin Richmond, Simon King,
- Abstract要約: SSL音声モデルの量子化は、韻律情報とパラ言語情報を捨てる。
本稿では,異なる言語単位で音声を定量化するSVCを提案する。
SVCは、探索タスク全体にわたる韻律情報やパラ言語情報の保存において、はるかに効果的である。
- 参考スコア(独自算出の注目度): 18.352624290814973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization in SSL speech models (e.g., HuBERT) improves compression and performance in tasks like language modeling, resynthesis, and text-to-speech but often discards prosodic and paralinguistic information (e.g., emotion, prominence). While increasing codebook size mitigates some loss, it inefficiently raises bitrates. We propose Segmentation-Variant Codebooks (SVCs), which quantize speech at distinct linguistic units (frame, phone, word, utterance), factorizing it into multiple streams of segment-specific discrete features. Our results show that SVCs are significantly more effective at preserving prosodic and paralinguistic information across probing tasks. Additionally, we find that pooling before rather than after discretization better retains segment-level information. Resynthesis experiments further confirm improved style realization and slightly improved quality while preserving intelligibility.
- Abstract(参考訳): SSL音声モデルの量子化(例: HuBERT)は、言語モデリング、再合成、テキスト音声合成といったタスクにおける圧縮とパフォーマンスを改善するが、韻律的およびパラ言語的な情報(例:感情、プロミネンス)を破棄することが多い。
コードブックのサイズが大きくなると多少の損失が軽減されるが、非効率にビットレートを上昇させる。
本稿では,異なる言語単位(フレーム,電話,単語,発話)で音声を定量化し,セグメント固有の個別特徴の複数のストリームに分解するセグメンテーション・バリアント・コードブック(SVC)を提案する。
以上の結果から,SVCは探索作業における韻律的・パラ言語的情報の保存に極めて効果的であることが示唆された。
さらに、離散化後よりも先にプールがセグメントレベルの情報をより適切に保持していることが分かりました。
再合成実験はさらに、改良されたスタイルの実現と、インテリジェンスを維持しつつ、わずかに改善された品質を確認した。
関連論文リスト
- When Every Token Counts: Optimal Segmentation for Low-Resource Language Models [0.0]
最適Byte-Pair(BPE)構成は,グリーディセグメンテーションに比べてトークン数を大幅に削減することを示す。
この結果から,圧縮最適化トークン化戦略が多言語および低リソース言語アプリケーションに多大なメリットをもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-09T19:11:54Z) - Building, Reusing, and Generalizing Abstract Representations from Concrete Sequences [51.965994405124455]
人間は異なるシーケンスで抽象パターンを学習し、無関係な詳細をフィルタリングする。
多くのシーケンス学習モデルには抽象化能力がないため、メモリの非効率性や転送の低さにつながる。
非パラメトリック階層型変数学習モデル(HVM)を導入し、シーケンスからチャンクを学習し、文脈的に類似したチャンクを変数として抽象化する。
論文 参考訳(メタデータ) (2024-10-27T18:13:07Z) - TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at
Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。
本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。
最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文 参考訳(メタデータ) (2023-05-23T15:44:56Z) - HistAlign: Improving Context Dependency in Language Generation by
Aligning with History [96.35214682008701]
言語モデル(LM)は、その弱いコンテキスト依存性を強調する幻覚や一貫性のない出力を生成することができる。
近年のメモリでLMを増大させるキャッシュ-LMは、コンテキスト依存性を増大させる可能性がある。
HistAlignはキャッシュの整合性を確保するための新しいトレーニング手法だ。
論文 参考訳(メタデータ) (2023-05-08T15:34:56Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。