Fugu-MT 論文翻訳(概要): RepCodec: A Speech Representation Codec for Speech Tokenization

論文の概要: RepCodec: A Speech Representation Codec for Speech Tokenization

arxiv url: http://arxiv.org/abs/2309.00169v3
Date: Mon, 22 Jul 2024 09:53:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 05:36:51.545526
Title: RepCodec: A Speech Representation Codec for Speech Tokenization
Title（参考訳）: RepCodec:音声トークン化のための音声表現コーデック
Authors: Zhichao Huang, Chutong Meng, Tom Ko,
Abstract要約: RepCodecは意味的音声トークン化のための新しい表現である。 RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
参考スコア（独自算出の注目度）: 21.60885344868044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With recent rapid growth of large language models (LLMs), discrete speech tokenization has played an important role for injecting speech into LLMs. However, this discretization gives rise to a loss of information, consequently impairing overall performance. To improve the performance of these discrete speech tokens, we present RepCodec, a novel speech representation codec for semantic speech tokenization. In contrast to audio codecs which reconstruct the raw audio, RepCodec learns a vector quantization codebook through reconstructing speech representations from speech encoders like HuBERT or data2vec. Together, the speech encoder, the codec encoder and the vector quantization codebook form a pipeline for converting speech waveforms into semantic tokens. The extensive experiments illustrate that RepCodec, by virtue of its enhanced information retention capacity, significantly outperforms the widely used k-means clustering approach in both speech understanding and generation. Furthermore, this superiority extends across various speech encoders and languages, affirming the robustness of RepCodec. We believe our method can facilitate large language modeling research on speech processing.
Abstract（参考訳）: 近年の大規模言語モデル (LLM) の急速な発展に伴い, 離散音声のトークン化はLLMに音声を注入する上で重要な役割を担っている。しかし、この離散化は情報の喪失を引き起こし、結果として全体的なパフォーマンスを損なう。本稿では,これらの離散音声トークンの性能を向上させるために,意味的音声トークン化のための新しい音声表現コーデックRepCodecを提案する。生音声を再構成する音声コーデックとは対照的に、RepCodecはHuBERTやData2vecのような音声エンコーダから音声表現を再構成することでベクトル量子化コードブックを学習する。共に、音声エンコーダ、コーデックエンコーダ、ベクトル量子化コードブックは、音声波形を意味トークンに変換するパイプラインを形成する。広範にわたる実験により、RepCodecはその情報保持能力の強化により、音声理解と生成の両方において広く使われているk平均クラスタリングアプローチよりも大幅に優れていることが示された。さらに、この優位性は様々な音声エンコーダや言語にまたがって広がり、RepCodecの堅牢性を確認している。提案手法は,音声処理における大規模言語モデリング研究を促進できると考えている。

関連論文リスト

SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
HH-Codec: High Compression High-fidelity Discrete Neural Codec for Spoken Language Modeling [6.313337261965531]
HH-Codecは、24kHzのオーディオに対して毎秒24トークンで極端な圧縮を実現するニューラルコーデックである。提案手法では,音声言語モデリングのためのベクトル量子化空間を慎重に設計し,情報損失を最小限に抑えながら圧縮効率を最適化する。 HH-Codecは、0.3kbpsの超低帯域で音声再構成における最先端性能を実現する。
論文参考訳（メタデータ） (2025-07-25T02:44:30Z)
FocalCodec: Low-Bitrate Speech Coding via Focal Modulation Networks [12.446324804274628]
FocalCodecは、単一のバイナリコードブックを使って音声を圧縮する焦点変調に基づく効率的な低ビットレートである。デモサンプル、コード、チェックポイントはhttps://lucadellalib.io/focalcodec-web/.com/で公開されている。
論文参考訳（メタデータ） (2025-02-06T19:24:50Z)
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec [14.7377193484733]
LSCodecは低話者分離能力と低話者分離能力を持つ離散音声である。リコンストラクション評価により、LSCodecは単一のコードブックだけで、ベースラインよりも語彙サイズが小さく、優れたインテリジェンス性とオーディオ品質を示す。
論文参考訳（メタデータ） (2024-10-21T08:23:31Z)
DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。 WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文参考訳（メタデータ） (2024-10-19T07:14:14Z)
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。 X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T10:24:07Z)
CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文参考訳（メタデータ） (2024-07-07T15:16:19Z)
CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction [61.067153685104394]
変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。話者の類似度は低く、プロソディの自然度は低い。本稿では、ニューラルネットワークモデリングを利用して再構成結果を改善するマルチモーダルDSRモデルを提案する。
論文参考訳（メタデータ） (2024-06-12T15:42:21Z)
DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation [36.126810842258706]
直接音声音声変換(S2ST)は、1つのモデルを用いて、ある言語から別の言語に音声を翻訳する。言語的および音響的多様性が存在するため、ターゲット音声は複雑な多モーダル分布に従う。高速かつ高品質なS2STを実現する非自己回帰直接S2STモデルであるDASpeechを提案する。
論文参考訳（メタデータ） (2023-10-11T11:39:36Z)
Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文参考訳（メタデータ） (2023-10-04T17:58:11Z)
SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models [58.996653700982556]
既存の音声トークンは、特に音声言語モデリングのために設計されていない。音声大言語モデルのための統一型音声トークンであるSpeechTokenizerを提案する。実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。
論文参考訳（メタデータ） (2023-08-31T12:53:09Z)
Linguistic-Enhanced Transformer with CTC Embedding for Speech Recognition [29.1423215212174]
関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。 AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
論文参考訳（メタデータ） (2022-10-25T08:12:59Z)
Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文参考訳（メタデータ） (2022-05-02T17:59:02Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。