論文の概要: dMel: Speech Tokenization made Simple
- arxiv url: http://arxiv.org/abs/2407.15835v1
- Date: Mon, 22 Jul 2024 17:51:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 13:41:12.865116
- Title: dMel: Speech Tokenization made Simple
- Title(参考訳): dMel: 音声トークン化をシンプルに
- Authors: He Bai, Tatiana Likhomanenko, Ruixiang Zhang, Zijin Gu, Zakaria Aldeneh, Navdeep Jaitly,
- Abstract要約: メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
- 参考スコア(独自算出の注目度): 19.169460770473908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have revolutionized natural language processing by leveraging self-supervised pretraining on vast textual data. Inspired by this success, researchers have investigated complicated speech tokenization methods to discretize continuous speech signals so that language modeling techniques can be applied to speech data. However, existing approaches either model semantic tokens, potentially losing acoustic information, or model acoustic tokens, risking the loss of semantic information. Having multiple token types also complicates the architecture and requires additional pretraining. Here we show that discretizing mel-filterbank channels into discrete intensity bins produces a simple representation (dMel), that performs better than other existing speech tokenization methods. Using a transformer decoder-only architecture for speech-text modeling, we comprehensively evaluate different speech tokenization methods on speech recognition (ASR), speech synthesis (TTS). Our results demonstrate the effectiveness of dMel in achieving high performance on both tasks within a unified framework, paving the way for efficient and effective joint modeling of speech and text.
- Abstract(参考訳): 大規模言語モデルは、膨大なテキストデータに基づく自己教師付き事前学習を活用することで、自然言語処理に革命をもたらした。
この成功に触発された研究者らは、連続した音声信号を識別する複雑な音声トークン化法を研究し、言語モデリング技術が音声データに適用できるようにした。
しかし、既存のアプローチは意味的トークンをモデル化し、音響情報を失う可能性があり、または音響的トークンをモデル化し、意味的情報の喪失を危険にさらす。
複数のトークン型を持つこともアーキテクチャを複雑にし、追加の事前トレーニングを必要とする。
本稿では,メルフィルタチャネルを離散強度ビンに分割することで,既存の音声トークン化手法よりも優れた単純な表現(dMel)が得られることを示す。
音声認識(ASR)、音声合成(TTS)の異なる音声トークン化手法を包括的に評価する。
本研究は,dMelが統合された枠組み内での両タスクの高性能化に有効であることを示し,音声とテキストの協調モデリングを効果的かつ効果的に行う方法について検討した。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Unified Speech-Text Pretraining for Spoken Dialog Modeling [42.59768604228263]
本研究は, 与えられた入力音声に関連付けられた有機韻律的特徴を持つコヒーレントな音声応答を生成するための, 広範囲な音声テキストLLMフレームワークを提案する。
提案手法では,LLMのチェイン・オブ・レーソン機能を利用した多段階音声文推論方式を用いる。
提案手法は,従来のベースラインとケースドベースラインの両方に優れ,自然な音声応答を生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。