論文の概要: FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
- arxiv url: http://arxiv.org/abs/2509.11425v1
- Date: Sun, 14 Sep 2025 20:35:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.077477
- Title: FuseCodec: Semantic-Contextual Fusion and Supervision for Neural Codecs
- Title(参考訳): FuseCodec: 意味-文脈融合とニューラルコーデックのスーパービジョン
- Authors: Md Mubtasim Ahasan, Rafat Hasan Khan, Tasnim Mohiuddin, Aman Chadha, Tariq Iqbal, M Ashraful Amin, Amin Ahsan Ali, Md Mofijul Islam, A K M Mahbubur Rahman,
- Abstract要約: 音声トークン化は、離散表現を可能にし、音声言語モデリングを容易にする。
本研究では,FuseCodecを導入し,音響的,意味的,文脈的表現を強力な相互アライメントとグローバルインフォメーション・インフォメーションを通じて統合する。
FuseCodecは、EnCodec、SpeechTokenizer、DACを上回り、転写精度、知覚的品質、インテリジェンス、話者類似性において、LibriSpeechの最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 18.376715479210603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech tokenization enables discrete representation and facilitates speech language modeling. However, existing neural codecs capture low-level acoustic features, overlooking the semantic and contextual cues inherent to human speech. While recent efforts introduced semantic representations from self-supervised speech models or incorporated contextual representations from pre-trained language models, challenges remain in aligning and unifying the semantic and contextual representations. We introduce FuseCodec, which unifies acoustic, semantic, and contextual representations through strong cross-modal alignment and globally informed supervision. We propose three complementary techniques: (i) Latent Representation Fusion, integrating semantic and contextual features directly into the encoder latent space for robust and unified representation learning; (ii) Global Semantic-Contextual Supervision, supervising discrete tokens with globally pooled and broadcasted representations to enhance temporal consistency and cross-modal alignment; and (iii) Temporally Aligned Contextual Supervision, strengthening alignment by dynamically matching contextual and speech tokens within a local window for fine-grained token-level supervision. We further introduce FuseCodec-TTS, demonstrating our methodology's applicability to zero-shot speech synthesis. Empirically, FuseCodec achieves state-of-the-art performance in LibriSpeech, surpassing EnCodec, SpeechTokenizer, and DAC in transcription accuracy, perceptual quality, intelligibility, and speaker similarity. Results highlight the effectiveness of contextually and semantically guided tokenization for speech tokenization and downstream tasks. Code and pretrained models are available at https://github.com/mubtasimahasan/FuseCodec.
- Abstract(参考訳): 音声トークン化は、離散表現を可能にし、音声言語モデリングを容易にする。
しかし、既存のニューラルコーデックは、人間の発話に固有の意味的および文脈的手がかりを見渡すことで、低レベルの音響的特徴を捉えている。
近年の取り組みでは、自己教師付き音声モデルからのセマンティック表現や、事前訓練された言語モデルからのコンテキスト表現が導入されたが、セマンティック表現とコンテキスト表現の整合と統一に課題が残されている。
本研究では,FuseCodecを導入し,音響的,意味的,文脈的表現を強力な相互アライメントとグローバルインフォメーション・インフォメーションを通じて統合する。
我々は3つの補完手法を提案する。
一 意味的特徴及び文脈的特徴を直接エンコーダ潜在空間に統合し、堅牢かつ統一された表現学習を行うこと。
2グローバルセマンティック・コンテクチュアル・スーパービジョン、時間的整合性及び相互整合性を高めるために、グローバルプール及び放送された表現で個別トークンを監督すること。
3) 局所窓内における文脈トークンと音声トークンを動的に整合させることにより, 微粒なトークンレベルの監視を行う。
さらにFuseCodec-TTSを導入し、ゼロショット音声合成に適用可能であることを示す。
実証的には、FuseCodecは、EnCodec、SpeechTokenizer、DACを上回り、文字の精度、知覚的品質、知性、話者類似性において、LibriSpeechの最先端のパフォーマンスを達成する。
その結果、音声のトークン化と下流タスクにおける文脈的および意味論的に導かれたトークン化の有効性を強調した。
コードと事前訓練されたモデルはhttps://github.com/mubtasimahasan/FuseCodec.comで入手できる。
関連論文リスト
- ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。
ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文 参考訳(メタデータ) (2025-07-27T00:59:01Z) - What Makes a Good Speech Tokenizer for LLM-Centric Speech Generation? A Systematic Study [58.55905182336196]
音声言語モデル(SLM)は、音声とテキストの理解と生成を統一するための有望な経路を提供する。
LLM中心のSLMにおける音声トークン化設計の役割について検討し,音声ヘッドと話者モデルを用いて検討した。
SLMにマルチトークン予測(MTP)を導入し、各隠れ状態が複数の音声トークンを復号化できるようにする。
論文 参考訳(メタデータ) (2025-06-14T15:26:31Z) - Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations [23.059241057567956]
本稿では,2種類のトークンを統一し,音声のすべての意味をカプセル化する普遍的な音声トークン学習UniCodecを提案する。
低ビットレートのニューラルは、グローバルスケールとローカルスケールでこのような非交叉離散表現を学習するために利用され、自己教師付き学習特徴から知識を抽出する。
論文 参考訳(メタデータ) (2025-03-15T12:50:43Z) - DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。
WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。