論文の概要: Factorized RVQ-GAN For Disentangled Speech Tokenization
- arxiv url: http://arxiv.org/abs/2506.15456v1
- Date: Wed, 18 Jun 2025 13:36:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.677764
- Title: Factorized RVQ-GAN For Disentangled Speech Tokenization
- Title(参考訳): 直交音声認識のための因子化RVQ-GAN
- Authors: Sameer Khurana, Dominik Klement, Antoine Laurent, Dominik Bobos, Juraj Novosad, Peter Gazdik, Ellen Zhang, Zili Huang, Amir Hussein, Ricard Marxer, Yoshiki Masuyama, Ryo Aihara, Chiori Hori, Francois G. Germain, Gordon Wichern, Jonathan Le Roux,
- Abstract要約: 本稿では,そのボトルネックを1つのモデルで3つの言語レベル(音響,音声,語彙)に分解する統合型ニューラル音声エンコーダを提案する。
英語と多言語のデータの実験により、HACの分解されたボトルネックは非絡み合いのトークン集合をもたらすことが示された。
定量的評価は,HACが自然性を保持し,言語情報を提供することを確認した。
- 参考スコア(独自算出の注目度): 34.73812744103814
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose Hierarchical Audio Codec (HAC), a unified neural speech codec that factorizes its bottleneck into three linguistic levels-acoustic, phonetic, and lexical-within a single model. HAC leverages two knowledge distillation objectives: one from a pre-trained speech encoder (HuBERT) for phoneme-level structure, and another from a text-based encoder (LaBSE) for lexical cues. Experiments on English and multilingual data show that HAC's factorized bottleneck yields disentangled token sets: one aligns with phonemes, while another captures word-level semantics. Quantitative evaluations confirm that HAC tokens preserve naturalness and provide interpretable linguistic information, outperforming single-level baselines in both disentanglement and reconstruction quality. These findings underscore HAC's potential as a unified discrete speech representation, bridging acoustic detail and lexical meaning for downstream speech generation and understanding tasks.
- Abstract(参考訳): 階層型音声コーデック(HAC, Hierarchical Audio Codec)は、そのボトルネックを1つのモデルで3つの言語レベル(音響、音声、語彙)に分解する統合型ニューラル音声コーデックである。
HACは、音素レベル構造のための事前訓練された音声エンコーダ(HuBERT)と、語彙的手がかりのためのテキストベースのエンコーダ(LaBSE)の2つの知識蒸留目標を利用する。
英語と多言語データを用いた実験では、HACの分解されたボトルネックは不整合トークン集合を生じ、一方は音素と整合し、もう一方は単語レベルの意味論を捉える。
定量的評価により,HACトークンが自然性を保持し,解釈可能な言語情報を提供することが確認された。
これらの結果から,HACの音声表現の統一化,音響的詳細のブリッジ化,下流音声生成・理解タスクの語彙的意味の明確化が示唆された。
関連論文リスト
- Speech-Language Models with Decoupled Tokenizers and Multi-Token Prediction [58.55905182336196]
音声合成モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
本研究では,SLMの性能に及ぼすキーコンポーネント(音声トークン化,音声ヘッド,話者モデルなど)の影響について検討する。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations [23.059241057567956]
本稿では,2種類のトークンを統一し,音声のすべての意味をカプセル化する普遍的な音声トークン学習UniCodecを提案する。
低ビットレートのニューラルは、グローバルスケールとローカルスケールでこのような非交叉離散表現を学習するために利用され、自己教師付き学習特徴から知識を抽出する。
論文 参考訳(メタデータ) (2025-03-15T12:50:43Z) - DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。
WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - Sylber: Syllabic Embedding Representation of Speech from Raw Audio [25.703703711031178]
クリーンでロバストな音節構造を持つ音声表現を生成する新モデルSylberを提案する。
具体的には,Syllabicの埋め込みを自己教師なしのSyllabicセグメンテーションから抽出し,自己教師付き学習フレームワークを提案する。
1) 高速で線形な音節分割アルゴリズム,2) 平均4.27トークン毎の効率的な音節トークン化,3) 効率的な音声言語モデリングに適した新しい音韻単位,である。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT [10.18337180909434]
非転写音声から意味のある特徴を抽出するためには,自己教師付き音声表現学習が不可欠である。
本稿では,音節単位を話者情報から分離する,音声のみの自己教師型微調整手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T09:07:08Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。