論文の概要: STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs
- arxiv url: http://arxiv.org/abs/2602.06180v1
- Date: Thu, 05 Feb 2026 20:36:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.102763
- Title: STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs
- Title(参考訳): STACodec:音声コーデックにおける音響忠実度と意味情報のバランスのための意味的トークン割り当て
- Authors: Kaiyuan Zhang, Mohan Shi, Eray Eren, Natarajan Balaji Shankar, Zilai Wang, Abeer Alwan,
- Abstract要約: STACodecは自己教師付き学習(SSL)モデルからの意味情報を残差ベクトル量子化(RVQ-1)の第1層に統合する
本研究では,第1のRVQ層に代入するための意味トークンを直接予測する意味事前蒸留(SPD)モジュールを提案する。
- 参考スコア(独自算出の注目度): 19.07983030478734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural audio codecs are widely used for audio compression and can be integrated into token-based language models. Traditional codecs preserve acoustic details well but lack semantic information. Recent hybrid codecs attempt to incorporate semantic information through distillation, but this often degrades reconstruction performance, making it difficult to achieve both. To address this limitation, we introduce STACodec, a unified codec that integrates semantic information from self-supervised learning (SSL) models into the first layer of residual vector quantization (RVQ-1) via semantic token assignment (STA). To further eliminate reliance on SSL-based semantic tokenizers and improve efficiency during inference, we propose a semantic pre-distillation (SPD) module, which predicts semantic tokens directly for assignment to the first RVQ layer during inference. Experimental results show that STACodec outperforms existing hybrid codecs in both audio reconstruction and downstream semantic tasks, demonstrating a better balance between acoustic fidelity and semantic capability.
- Abstract(参考訳): ニューラルオーディオコーデックは音声圧縮に広く使われており、トークンベースの言語モデルに統合することができる。
伝統的なコーデックは音響的詳細をよく保存するが、意味情報がない。
近年のハイブリッドコーデックでは, 蒸留により意味情報を組み込もうとしている。
この制限に対処するため、STACodecは、自己教師付き学習(SSL)モデルからのセマンティック情報を、セマンティックトークン代入(STA)を介して、残留ベクトル量子化(RVQ-1)の第1層に統合する統合コーデックである。
SSLベースのセマンティック・トークンーザへの依存をさらに排除し,推論時の効率を向上させるために,推論中の第1のRVQ層への割り当てに対して,セマンティック・トークンを直接予測するセマンティック・プレ蒸留(SPD)モジュールを提案する。
実験結果から,STACodecは音声再構成と下流セマンティックタスクの両方において,既存のハイブリッドコーデックよりも優れており,音響的忠実度と意味的能力のバランスが良好であることが示された。
関連論文リスト
- Semantic Codebooks as Effective Priors for Neural Speech Compression [3.4074476957610074]
SemDACはセマンティック・アウェアなニューラル・オーディオであり、セマンティック・コードブックを音声圧縮の効果的な先行要素として活用する。
FiLM条件付きデコーダは、セマンティックトークンに条件付きオーディオを再構成し、音響コードブックの使用効率を向上させる。
論文 参考訳(メタデータ) (2025-12-25T12:49:41Z) - SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。
既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。
本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:22:14Z) - Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。
提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-08T21:36:10Z) - Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。
X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。
音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2024-08-30T10:24:07Z) - BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。
本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。
最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。
そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文 参考訳(メタデータ) (2022-12-18T10:41:55Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。