論文の概要: Kanade: A Simple Disentangled Tokenizer for Spoken Language Modeling
- arxiv url: http://arxiv.org/abs/2602.00594v1
- Date: Sat, 31 Jan 2026 08:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.27763
- Title: Kanade: A Simple Disentangled Tokenizer for Spoken Language Modeling
- Title(参考訳): Kanade: 音声言語モデリングのための単純な切り離し型トケナイザ
- Authors: Zhijie Huang, Stephen McIntosh, Daisuke Saito, Nobuaki Minematsu,
- Abstract要約: トークン化は言語情報と非言語情報を混在させる連続的な信号を処理しなければならない音声モデリングにおいて重要である。
In this present Kanade, a single-layer disentangled speech tokenizer。
実験により,カナデは高い復元品質を維持しつつ,最先端の話者のゆがみと語彙の可利用性を達成できることが示された。
- 参考スコア(独自算出の注目度): 17.56787468222101
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A good language model starts with a good tokenizer. Tokenization is especially important for speech modeling, which must handle continuous signals that mix linguistic and non-linguistic information. A speech tokenizer should extract phonetics and prosody, suppress linguistically irrelevant information like speaker identity, and enable high-quality synthesis. We present Kanade, a single-layer disentangled speech tokenizer that realizes this ideal. Kanade separates out acoustic constants to create a single stream of tokens that captures rich phonetics and prosody. It does so without the need for auxiliary methods that existing disentangled codecs often rely on. Experiments show that Kanade achieves state-of-the-art speaker disentanglement and lexical availability, while maintaining excellent reconstruction quality.
- Abstract(参考訳): 優れた言語モデルは、優れたトークン化ツールから始まります。
トークン化は言語情報と非言語情報を混在させる連続的な信号を処理しなければならない音声モデリングにおいて特に重要である。
音声トークンーは音声学と韻律を抽出し、話者識別のような言語的に無関係な情報を抑圧し、高品質な合成を可能にする。
本稿では,この理想を実現する単一層不整合音声トークンであるKanadeを紹介する。
Kanadeはアコースティック定数を分離して、リッチな音声と韻律をキャプチャするトークンの単一のストリームを生成する。
既存の非絡み合ったコーデックがしばしば依存する補助的なメソッドを必要としない。
実験により,カナデは高い復元品質を維持しつつ,最先端の話者のゆがみと語彙の可利用性を達成できることが示された。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations [32.83743219965261]
本稿では,2種類のトークンを統一し,音声のすべての意味をカプセル化する普遍的な音声トークン学習UniCodecを提案する。
低ビットレートのニューラルは、グローバルスケールとローカルスケールでこのような非交叉離散表現を学習するために利用され、自己教師付き学習特徴から知識を抽出する。
論文 参考訳(メタデータ) (2025-03-15T12:50:43Z) - Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,Syllabicの埋め込みを自己教師なしのSyllabicセグメンテーションから抽出し,自己教師付き学習フレームワークを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 効率的な音声言語モデリングに適した新しい音韻単位,である。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - dMel: Speech Tokenization made Simple [16.679015298503593]
そこで本研究では,メルフィルタバンクチャネルを離散化した新しい音声表現(dmel)を提案する。
提案手法は, 音声コンテンツの保存, ドメイン外データの堅牢性, 学習自由, 自然, ストリーム可能な表現の両面において, 優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language
Models [58.996653700982556]
既存の音声トークンは、特に音声言語モデリングのために設計されていない。
音声大言語モデルのための統一型音声トークンであるSpeechTokenizerを提案する。
実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
論文 参考訳(メタデータ) (2023-08-31T12:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。