論文の概要: SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language
Models
- arxiv url: http://arxiv.org/abs/2308.16692v2
- Date: Tue, 23 Jan 2024 01:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 19:18:29.296485
- Title: SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language
Models
- Title(参考訳): speechtokenizer: 音声大言語モデルのための統一音声トークン化子
- Authors: Xin Zhang, Dong Zhang, Shimin Li, Yaqian Zhou, Xipeng Qiu
- Abstract要約: 既存の音声トークンは、特に音声言語モデリングのために設計されていない。
音声大言語モデルのための統一型音声トークンであるSpeechTokenizerを提案する。
実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
- 参考スコア(独自算出の注目度): 58.996653700982556
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current speech large language models build upon discrete speech
representations, which can be categorized into semantic tokens and acoustic
tokens. However, existing speech tokens are not specifically designed for
speech language modeling. To assess the suitability of speech tokens for
building speech language models, we established the first benchmark,
SLMTokBench. Our results indicate that neither semantic nor acoustic tokens are
ideal for this purpose. Therefore, we propose SpeechTokenizer, a unified speech
tokenizer for speech large language models. SpeechTokenizer adopts the
Encoder-Decoder architecture with residual vector quantization (RVQ). Unifying
semantic and acoustic tokens, SpeechTokenizer disentangles different aspects of
speech information hierarchically across different RVQ layers. Furthermore, We
construct a Unified Speech Language Model (USLM) leveraging SpeechTokenizer.
Experiments show that SpeechTokenizer performs comparably to EnCodec in speech
reconstruction and demonstrates strong performance on the SLMTokBench
benchmark. Also, USLM outperforms VALL-E in zero-shot Text-to-Speech tasks.
Code and models are available at
https://github.com/ZhangXInFD/SpeechTokenizer/.
- Abstract(参考訳): 現在の音声大言語モデルは、個別の音声表現に基づいて構築されており、意味トークンと音響トークンに分類することができる。
しかし、既存の音声トークンは、特に言語モデリングのために設計されていない。
音声言語モデル構築における音声トークンの適合性を評価するため,最初のベンチマークslmtokbenchを開発した。
その結果,この目的のために意味トークンや音響トークンは理想的ではないことがわかった。
そこで本稿では,大言語モデルのための統一音声トークンであるSpeechTokenizerを提案する。
SpeechTokenizerは、残差ベクトル量子化(RVQ)を備えたEncoder-Decoderアーキテクチャを採用している。
意味的および音響的トークンを統一するSpeechTokenizerは、異なるRVQ層に階層的に音声情報の異なる側面を分離する。
さらに,SpeechTokenizerを利用した統一音声言語モデル(USLM)を構築した。
実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
また、USLMはゼロショットテキスト音声タスクにおいてVALL-Eより優れている。
コードとモデルはhttps://github.com/zhangxinfd/speechtokenizer/で入手できる。
関連論文リスト
- DC-Spin: A Speaker-invariant Speech Tokenizer for Spoken Language Models [45.791472119671916]
音声言語モデル(SLM)はテキストと音声を処理し、同時に音声の理解と生成を可能にする。
DC-Spinは音声信号とSLMトークンをブリッジすることで音声のトークン化を改善することを目的としている。
本稿では,再学習や劣化を伴わずに,ストリーム可能なDC-Spinを実現するためのチャンクワイズ手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T17:43:13Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - HierSpeech++: Bridging the Gap between Semantic and Acoustic
Representation of Speech by Hierarchical Variational Inference for Zero-shot
Speech Synthesis [39.892633589217326]
大規模言語モデル(LLM)に基づく音声合成は、ゼロショット音声合成において広く採用されている。
テキスト音声変換(TTS)と音声変換(VC)のための高速で強力なゼロショット音声合成器であるHierSpeech++を提案する。
論文 参考訳(メタデータ) (2023-11-21T09:07:11Z) - RepCodec: A Speech Representation Codec for Speech Tokenization [21.60885344868044]
RepCodecは意味的音声トークン化のための新しい表現である。
RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-31T23:26:10Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - UWSpeech: Speech to Speech Translation for Unwritten Languages [145.37116196042282]
UWSpeechと名づけられた非書き言語のための翻訳システムを開発し、対象の非書き言語をコンバータで個別のトークンに変換する。
本稿では,ベクトル量子化変分オートエンコーダ(VQ-VAE)を言語間音声認識(XL)で拡張するXL-VAE法を提案する。
スペイン語と英語の会話翻訳データセットの実験では、UWSpeechは、それぞれ16点と10点のBLEUポイントで直接翻訳とVQ-VAEベースラインを上回っている。
論文 参考訳(メタデータ) (2020-06-14T15:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。