Fugu-MT 論文翻訳(概要): STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs

論文の概要: STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs

arxiv url: http://arxiv.org/abs/2602.06180v1
Date: Thu, 05 Feb 2026 20:36:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.102763
Title: STACodec: Semantic Token Assignment for Balancing Acoustic Fidelity and Semantic Information in Audio Codecs
Title（参考訳）: STACodec:音声コーデックにおける音響忠実度と意味情報のバランスのための意味的トークン割り当て
Authors: Kaiyuan Zhang, Mohan Shi, Eray Eren, Natarajan Balaji Shankar, Zilai Wang, Abeer Alwan,
Abstract要約: STACodecは自己教師付き学習(SSL)モデルからの意味情報を残差ベクトル量子化(RVQ-1)の第1層に統合する本研究では,第1のRVQ層に代入するための意味トークンを直接予測する意味事前蒸留(SPD)モジュールを提案する。
参考スコア（独自算出の注目度）: 19.07983030478734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural audio codecs are widely used for audio compression and can be integrated into token-based language models. Traditional codecs preserve acoustic details well but lack semantic information. Recent hybrid codecs attempt to incorporate semantic information through distillation, but this often degrades reconstruction performance, making it difficult to achieve both. To address this limitation, we introduce STACodec, a unified codec that integrates semantic information from self-supervised learning (SSL) models into the first layer of residual vector quantization (RVQ-1) via semantic token assignment (STA). To further eliminate reliance on SSL-based semantic tokenizers and improve efficiency during inference, we propose a semantic pre-distillation (SPD) module, which predicts semantic tokens directly for assignment to the first RVQ layer during inference. Experimental results show that STACodec outperforms existing hybrid codecs in both audio reconstruction and downstream semantic tasks, demonstrating a better balance between acoustic fidelity and semantic capability.
Abstract（参考訳）: ニューラルオーディオコーデックは音声圧縮に広く使われており、トークンベースの言語モデルに統合することができる。伝統的なコーデックは音響的詳細をよく保存するが、意味情報がない。近年のハイブリッドコーデックでは, 蒸留により意味情報を組み込もうとしている。この制限に対処するため、STACodecは、自己教師付き学習(SSL)モデルからのセマンティック情報を、セマンティックトークン代入(STA)を介して、残留ベクトル量子化(RVQ-1)の第1層に統合する統合コーデックである。 SSLベースのセマンティック・トークンーザへの依存をさらに排除し,推論時の効率を向上させるために,推論中の第1のRVQ層への割り当てに対して,セマンティック・トークンを直接予測するセマンティック・プレ蒸留(SPD)モジュールを提案する。実験結果から,STACodecは音声再構成と下流セマンティックタスクの両方において,既存のハイブリッドコーデックよりも優れており,音響的忠実度と意味的能力のバランスが良好であることが示された。

関連論文リスト

DIFFA-2: A Practical Diffusion Large Language Model for General Audio Understanding [58.29124051111574]
一般音声理解のための実用的な拡散型LALMであるDIFFA-2を紹介する。 DIFFA-2は音声エンコーダをアップグレードし、デュアルセマンティックとアコースティックのアダプタを採用し、4段階のカリキュラムで訓練されている。 MMSU、MMAU、MMARの実験では、DIFFA-2はDIFFAよりも一貫して改善されている。
論文参考訳（メタデータ） (2026-01-30T16:44:23Z)
Representation-Regularized Convolutional Audio Transformer for Audio Understanding [53.092757178419355]
スクラッチからのブートストラップ表現は計算に高価で、しばしば収束するために広範囲のトレーニングを必要とします。本稿では,これらの課題に対処するための統合フレームワークであるConvolutional Audio Transformer (CAT)を提案する。
論文参考訳（メタデータ） (2026-01-29T12:16:19Z)
Semantic Codebooks as Effective Priors for Neural Speech Compression [3.4074476957610074]
SemDACはセマンティック・アウェアなニューラル・オーディオであり、セマンティック・コードブックを音声圧縮の効果的な先行要素として活用する。 FiLM条件付きデコーダは、セマンティックトークンに条件付きオーディオを再構成し、音響コードブックの使用効率を向上させる。
論文参考訳（メタデータ） (2025-12-25T12:49:41Z)
SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec [83.61175662066364]
音声コーデックは、音声とテキスト言語モデルを統一するための重要なブリッジとして機能する。既存の手法はセマンティックエンコーディングにおいていくつかの課題に直面している。本稿では,クロスモーダルな低ビットレートストリーミング音声コーデックSecoustiCodecを提案する。
論文参考訳（メタデータ） (2025-08-04T19:22:14Z)
Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文参考訳（メタデータ） (2025-06-08T21:36:10Z)
LSCodec: Low-Bitrate and Speaker-Decoupled Discrete Speech Codec [14.7377193484733]
LSCodecは低話者分離能力と低話者分離能力を持つ離散音声である。リコンストラクション評価により、LSCodecは単一のコードブックだけで、ベースラインよりも語彙サイズが小さく、優れたインテリジェンス性とオーディオ品質を示す。
論文参考訳（メタデータ） (2024-10-21T08:23:31Z)
Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model [36.61105228468503]
X-Codecは、Residual Vector Quantizationステージの前に、事前訓練されたセマンティックエンコーダのセマンティック機能を組み込んでいる。 X-Codecは音声合成タスクのWERを大幅に削減し、これらの利点を非音声アプリケーションに拡張する。音声合成における意味情報の統合は,音声生成における言語モデル全体の性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2024-08-30T10:24:07Z)
BEATs: Audio Pre-Training with Acoustic Tokenizers [77.8510930885778]
自己教師付き学習(SSL)は、ここ数年、言語、ビジョン、スピーチ、オーディオドメインで目撃されてきた。本稿では、音声変換器から双方向表現を学習するための反復型オーディオ事前学習フレームワークBEATを提案する。最初のイテレーションでは、ランダムプロジェクションを音響トークンとして使用し、マスクとラベル予測の方法でオーディオSSLモデルをトレーニングする。そこで,本研究では,事前学習あるいは微調整した音声SSLモデルから意味知識を抽出することにより,次のイテレーションのための音響トークン化装置を訓練する。
論文参考訳（メタデータ） (2022-12-18T10:41:55Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。