論文の概要: A Variational Framework for Improving Naturalness in Generative Spoken Language Models
- arxiv url: http://arxiv.org/abs/2506.14767v1
- Date: Tue, 17 Jun 2025 17:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.605206
- Title: A Variational Framework for Improving Naturalness in Generative Spoken Language Models
- Title(参考訳): 生成音声言語モデルにおける自然性向上のための変分フレームワーク
- Authors: Li-Wei Chen, Takuya Higuchi, Zakaria Aldeneh, Ahmed Hussen Abdelaziz, Alexander Rudnicky,
- Abstract要約: 本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
- 参考スコア(独自算出の注目度): 52.673912922590866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of large language models in text processing has inspired their adaptation to speech modeling. However, since speech is continuous and complex, it is often discretized for autoregressive modeling. Speech tokens derived from self-supervised models (known as semantic tokens) typically focus on the linguistic aspects of speech but neglect prosodic information. As a result, models trained on these tokens can generate speech with reduced naturalness. Existing approaches try to fix this by adding pitch features to the semantic tokens. However, pitch alone cannot fully represent the range of paralinguistic attributes, and selecting the right features requires careful hand-engineering. To overcome this, we propose an end-to-end variational approach that automatically learns to encode these continuous speech attributes to enhance the semantic tokens. Our approach eliminates the need for manual extraction and selection of paralinguistic features. Moreover, it produces preferred speech continuations according to human raters. Code, samples and models are available at https://github.com/b04901014/vae-gslm.
- Abstract(参考訳): テキスト処理における大規模言語モデルの成功は、音声モデリングへの適応にインスピレーションを与えている。
しかし、音声は連続的かつ複雑であるため、自動回帰モデリングでは区別されることが多い。
自己教師付きモデル(意味的トークンとして知られる)から派生した音声トークンは、通常、音声の言語的側面に焦点を当てるが、韻律的情報を無視する。
結果として、これらのトークンで訓練されたモデルは、自然さを減らした音声を生成することができる。
既存のアプローチでは、セマンティックトークンにピッチ機能を追加することで、この問題を修正しようとしている。
しかし、ピッチだけではパラ言語的属性の範囲を完全に表現することはできず、適切な特徴を選択するには注意を要する。
そこで本研究では,これらの連続音声属性をエンコードして意味的トークンを強化することを自動的に学習する,エンドツーエンドの変分法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
さらに、ヒトのレーダに応じて、好みの音声継続を生成する。
コード、サンプル、モデルはhttps://github.com/b04901014/vae-gslm.comで入手できる。
関連論文リスト
- Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations [23.059241057567956]
本稿では,2種類のトークンを統一し,音声のすべての意味をカプセル化する普遍的な音声トークン学習UniCodecを提案する。
低ビットレートのニューラルは、グローバルスケールとローカルスケールでこのような非交叉離散表現を学習するために利用され、自己教師付き学習特徴から知識を抽出する。
論文 参考訳(メタデータ) (2025-03-15T12:50:43Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models [4.165536532090932]
言語モデルにおけるトークン作成とモデルトレーニングの切り離しにより、悪名高いSolidGoldMagikarpトークンのような特定の入力が不要なモデル動作を引き起こす。
本稿では,大規模言語モデルトークン化器の包括的解析,特に未学習トークンの検出を対象とする。
そこで我々は,トークン分析,モデルウェイトベースインジケータ,およびプロンプト技術の組み合わせにより,これらの問題のあるトークンを自動的に検出する新規かつ効果的な手法を開発した。
論文 参考訳(メタデータ) (2024-05-08T20:37:56Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。